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内 容 提 要 


本 书 是 一 本 广 受 好 评 的 MongoDB 方面 的 图 书 。 与 传统 的 关系 型 数据 库 不 同 ，MongoDB 是 
一 种 面向 文档 的 数据 库 。 书 中 介绍 了 面向 文档 的 存储 方式 及 利用 MongoDB 的 无 模式 数据 模型 
处 理 文档 、 集 合 和 多 个 数据 库 , 讲述 了 如 何 执行 基本 的 写 操作 以 及 如 何 执行 各 种 复杂 的 条 件 查询 ， 
还 介绍 了 索引 、 聚 合 工具 以 及 其 他 高 级 查询 技术 , 另外 对 监控 、 安全 性 和 身份 验证 、 备份 和 修复 、 
水 平 扩展 MongoDB 数据 库 等 内 容 也 有 所 涉及 。 

本 书 适 合 数据 库 开 发 人 员 阅 读 。 
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2010 年 ， NoSQL 在 国内 掀起 了 一 阵 热 潮 ， 甚 中 风头 最 劲 的 莫 过 于 MongoDB 了 。 越 
来 越 多 的 业界 公司 已 经 或 准备 将 MongoDB 投入 实际 的 生产 环境 ， 很 多 创业 团队 也 
将 MongoDB 作为 自己 的 首先 数据库， 创造 出 令 人 眼花 练 乱 的 移动 互联 网 应 用 。 


我 在 2008 年 开始 接触 MongoDB， 经 历 了 早期 的 0.8 到 现在 最 新 的 1.8， 并 从 0.9 将 
其 部 署 到 生产 环境 中 ， 对 MongoDB 的 迅速 发 展 感慨 良 多 。MongoDB 自由 灵活 的 文 
档 模型 ， 让 我 的 开发 过 程 无 比 顺畅 。 对 于 大 数据 量 、 高 并 发 、 弱 事务 的 互联 网 应 用 ， 
MongoDB 则 是 一 个 如 瑞士 军刀 般 的 利器 。 尽 管 我 不 认同 MongoDB 会 在 所 有 场合 完 
全 取代 MySQL， 但 我 相信 它 完全 可 以 满足 Web 2.0 和 移动 互联 网 应 用 的 数据 存储 
需求 。MongoDB 内 置 的 水 平 扩展 机 制 提供 了 从 百 万 到 十 亿 级 别 的 数据 量 处 理 能 

其 开 箱 即 用 的 特性 也 大 大 降低 了 中 小 网 站 的 运 维 成 本 。 对 于 创业 团队 ，MongoDB 
也 是 不 二 的 选择 。 


从 我 自己 的 实践 来 看 ， 扎 掉 MySQL 的 结果 其 实 并 不 难 ， 前 提 是 你 要 改变 思路 ， 理 
解 MongoDB 的 设计 哲学 ， 正 视 它 的 优 缺 点 。 做 到 这 一 点 并 不 容易 ， 而 有 和 手头 这 本 
书 作为 参考 ， 可 以 让 你 少 走 很 多 的 弯路 。 


在 给 本 书写 序 的 时 候 ， 我 收 到 一 封 来 自 淘 宝 的 朋友 的 邮件 ， 询 问 我 关于 Mongo shell 
的 一 个 小 问题 。 很 巧 的 是 ， 问 题 的 答案 就 在 本 书 的 第 2 章 中 。 所 以 你 看 ， 即 便 是 很 
有 经 验 的 MongoDB 开发 者 ， 本 书 也 能 给 你 带 来 很 多 惊喜 。 

本 书 译 者 程 显 峰 是 MongoDB 中 文 社区 的 推动 者 ， 这 些 年 一 直 致 力 于 MongoDB 的 
普及 和 官方 文档 的 翻译 工作 。 我 是 在 2010 年 他 组 织 的 国内 首次 社区 聚会 活动 上 认识 
他 的 ， 在 那 次 聚会 上 ， 程 显 峰 邀请 MongoDB 专家 Peter Membrey 给 大 家 做 了 一 次 
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精彩 的 演示 ， 这 给 我 留 下 了 极为 深刻 的 印象 。 


作为 中 译本 ， 大 家 最 关心 的 是 译文 是 否 能 够 原 汁 原味 地 将 原 书 的 精华 完整 展现 出 来 ， 
同时 还 要 避免 生 湿 卜 义 。 初 读本 书 ， 我 认为 译 者 做 到 了 这 一 点 。 作 为 首 本 MongoDB 
方面 的 中 文书 ， 一 些 名 词 的 翻译 是 难度 很 大 的 ， 为 此 ， 显 峰 也 反复 推 旋 ， 几 经 易 稿 ， 
终于 成 文 。 由 此 可 见 其 态度 之 认真 。 


我 相信 ， 在 未 来 1~2 年 ，MongoDB 和 Nginx、Linux、PHP/Python/Ruby 的 组 合 ， 
将 取代 原来 的 LAMP 组 合 ， 让 我 们 拭目以待 。 








视觉 中 国 CTO ” 潘 凡 
2011 年 4 月 
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初 见 MongoDB 是 在 2010 年 年 初 ， 当 时 我 正 要 启动 一 个 互联 网 产品 的 开发 工作 ， 
此 进行 技术 选 型 也 是 顺理成章 的 事情 。 我 是 个 相对 比较 激进 的 技术 人 员 ， 总 是 不 甘 
于 使 用 自己 熟悉 的 东西 。 过 去 做 互联 网 产品 开发 ， 大 都 使 用 SQL Server、MySQL 
或 PostgreSQL 等 关系 型 数据 库 产品 ， 配 合 现成 的 数据 访问 工具 或 类 库 ， 开 发 起 来 还 
算 熟 练 。 


但 我 也 一 直 在 寻找 关系 型 数据 库 的 替代 品 ， 因 为 我 觉得 它 使 用 上 着 实 有 些 不 便 。 例 
如 ， 为 了 产品 中 的 某 个 实体 的 查询 操作 ， 我 们 需要 把 一 个 本 属于 该 实体 的 数据 拆 分 
至 另 一 个 表 中 ， 以 便 进行 连接 查询 。 于 是 无 论 是 创建 、 删 除 还 是 更 新 ， 我 们 要 涉及 
的 操作 便 增 加 了 许多 。 更 别 说 互联 网 项 目 时 刻 都 在 发 展 和 变动 ， 改 变 一 个 存储 单元 
的 结构 是 常事 ， 至 今 关 系 型 数据 库 的 在 线 模式 更 新 依旧 不 是 件 简单 的 事情 。 


总 而 言 之 ， 我 烦 。 


由 于 没有 历史 包容 ， 我 总 是 设法 在 新 项 目 里 引入 一 些 特别 的 事物 。 这 次 也 不 例外 。 
当时 正 是 NoSQL 逐渐 兴起 的 时 刻 ， 我 便 去 了 解 了 一 下 相关 的 存储 产品 。 例 如 Tokyo 
Cabinet/Tyrant、CouchDB 或 是 MongoDB 等 。 最 终 我 选择 了 MongoDB， 因 为 它 最 
为 简单 易 用 。 它 的 集合 支持 松散 的 模式 ， 易 于 灵活 调整 。 它 支持 复杂 的 属性 ， 并 可 
为 之 建立 索引 ， 作 为 查询 条 件 。 它 还 可 以 直接 对 记录 的 某 个 字段 进行 原子 性 的 改变 
一 一 这 在 NoSQL 产品 中 并 不 多 见 ， 例 如 在 尝试 Tokyo Tyrant 时 发 现 ， 更 新 一 条 记 
录 需 要 客户 端 进行 一 次 完整 的 读 取 和 提交 ， 这 直接 断 了 我 用 Tokyo Tyrant 作为 主要 
存储 方式 的 念头 。 


没 错 ，MongoDB 首先 吸引 我 的 就 是 它 的 易 用 性 ， 而 不 是 业界 津津 乐 道 的 性 能 或 是 
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海量 数据 下 的 表现 等 。 因 为 在 我 看 来 ， 如 今 分 布 式 环境 对 “ 单 点 ”下 的 性 能 及 海量 
数据 支持 的 要 求 并 不 如 想象 中 那么 重要 ，Facebook 等 互联 网 巨 壁 所 总 结 来 的 经 验 ， 
对 我 来 说 更 具 学 习 意 义 而 不 是 现实 意义 。 我 想 要 寻找 的 东西 ， 它 就 该 是 易 用 的 。 具 
体 来 说 ， 便 是 对 程序 员 友好 。 


我 是 程序 员 ， 我 懒 。 


这 么 看 来 ， 可 能 我 选择 MongoDB 有 些 盲目 而 冲动 ， 当 时 除了 SourceForge 之 外 ， 
似乎 也 没有 人 在 用 MongoDB 作为 主要 存储 方式 。 但 事实 上 ， 我 也 花 了 一 周 多 的 时 
间 观 察 MongoDB 的 表现 。 我 预测 了 未 来 一 年 里 的 数据 量 ， 构 造 尽 可 能 真实 的 测试 
数据 和 结构 ， 在 生产 环境 中 长 时 间 地 运行 以 观察 它 的 性 能 及 稳定 性 表现 。MongoDB 
最 终 也 没有 让 我 们 失望 。 我 们 也 没有 利用 当时 还 不 成 熟 的 Auto Sharding 功能 ， 而 是 
设计 了 能 够 自由 水 平 拆 分 的 架构 方案 ， 确 保 对 MongoDB 单 点 数据 量 的 控制 。 我 不 
能 确保 MongoDB 是 一 个 永久 可 靠 的 方案 ， 我 只 是 想 保 证 : 即便 是 以 MongoDB 目 
前 的 表现 ， 也 至 少 够 项 目 发 展 一 年 。 我 懒得 想 太 远 。 翡 观 地 说 ， 谁 知道 一 年 后 我 的 
项 目 是 否 还 存在 呢 ? 乐观 地 想 ， 到 时 候 MongoDB 一 定 发 展 得 更 好 了 吧 ! 


回头 看 来 ， MongoDB 的 发 展 势 头 有 增 无 减 ， 官 方 网 站 上 的 “案例 ”数量 也 有 了 成 
倍增 长 ， 可 谓 是 如 今 最 热门 的 NoSQL 产品 之 一 。 我 想 这 也 和 它 的 易 用 性 不 无 关系 ， 
产品 越 是 易 用 ， 则 越 会 有 人 用 ， 于 古越 会 有 更 多 人 投入 ， 也 就 越 不 容易 失败 。 


当然 ，MongoDB 的 缺点 也 很 明显 ， 例 如 它 对 程序 员 十 分 友好 ， 却 对 系统 管理 员 是 
个 考验 。 我 之 前 在 微 博 上 开玩笑 地 说 :“MongoDB 的 系统 管理 员 上 辈子 是 折 翼 的 天 
使 ,他 们 物 牲 自己 ,方便 整个 团队 。” 目 前 MongoDB 在 系统 维护 方面 依旧 缺少 业界 
实践 ， 往 往 只 能 靠 系 统管 理 员 自行 摸索 。 


看 到 这 儿 ， 您 可 能 会 觉得 这 不 像 是 一 本 书 的 推荐 或 是 序 。 但 我 倒 觉 得 ， 其 实 上 面 
这 些 文字 正好 可 以 用 来 概括 本 书 的 内 容 : 与 其 说 它 是 一 本 写 给 MongoDB 系统 管 
理 员 的 书 ， 更 不 如 说 是 面向 “使 用 MongoDB 的 程序 员 "”。 这 本 书 细致 地 介绍 了 
MongoDB 使 用 的 方方面面 ， 我 想 作 为 MongoDB 程序 员 的 入 门 书籍 及 案头 手册 是 十 
分 合适 的 一 一 假如 您 像 我 一 样 觉得 官方 文档 缺乏 条 理性 ， 不 易于 阅读 的 话 。 











盛大 创新 院 研 究 员 起动 
2011 年 4 月 
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10 年 前 ， 没 人 能 预见 互联 网 的 发 展 给 关系 型 数据 库 带 来 如 此 多 的 挑战 。 我 在 这 个 时 
期 亲身 经 历 了 在 快速 发 展 的 大 型 互联 网 公司 应 用 MySQL 的 过 程 。 开 始 时 只 有 很 少 
的 数据 ， 一 台 服 务 器 就 可 以 了 。 然 后 就 得 建立 备份 ， 以 便 应 对 大 量 的 读 取 和 不 时 的 
宕 机 。 用 不 了 多 长 时 间 ， 就 得 加 一 个 缓存 层 ， 调 整 所 有 的 查询 ， 投 入 更 多 的 硬件 。 


最 后 ， 你 会 发 现 自己 需要 将 数据 切 分 到 多 个 集群 上 ， 并 重新 构建 大 量 的 应 用 逻辑 以 
适应 这 种 切 分 。 之 后 不 久 ， 你 又 会 发 现 被 自己 数 月 前 设计 的 数据 库 结 构 限 制 住 了 。 


怎么 会 呢 ? 这 是 因为 集群 中 大 量 的 数据 需要 更 改 模式 ， 会 花费 很 长 时 间 ， 也 需要 
DBA 投入 相当 多 的 宝贵 时 间 。 在 代码 中 处 理 要 简单 一 些 ， 但 也 需要 小 型 开发 团队 数 
月 的 努力 。 最 后 ， 你 会 不 断 地 拷问 自己 有 没有 更 好 的 方法 ,或 者 为 什么 没有 在 核心 
数据 库 服务 器 中 内 置 更 多 诸如 此 类 的 功能 呢 。 


为 了 应 对 现在 Web 应 用 的 数据 膨胀 ， 开 源 社区 像 以 往 一 样 提 供 了 大多 的 “好 方法 ”。 
从 内 存 中 的 键 值 型 存储 到 可 以 使 用 SQL 的 MySQL/InnoDB 变种 等 复杂 方法 ， 无 所 
不 有 。 但 选择 多 了 ， 做 出 正确 的 选择 反而 更 难 了 。 我 自己 就 研究 过 其 中 很 多 种 。 


MongoDB 的 实用 性 着 实 令 人 着 迷 。MongoDB 并 不 去 迎合 所 有 人 的 全 部 需求 。 它 在 
功能 和 复杂 性 之 间 取 得 了 很 好 的 平衡 ， 并 且 将 原先 十 分 复杂 的 任务 大 大 简化 。 也 就 
是 说 ， 它 具备 支撑 今天 主流 Web 应 用 的 关键 功能 : 索引 、 复 制 、 分 片 、 丰 富 的 查询 
语法 ， 特 别 灵活 的 数据 模型 。 与 此 同时 还 不 牺牲 速度 。 

秉持 MongoDB 自身 的 风格 ， 本 书简 洁 明 快 、 通 俗 易 懂 。MongoDB 新 用 户 先 看 第 1 
章 ， 马 上 就 能 入 门 ， 而 有 经 验 的 用 户 则 会 欣赏 体验 本 书 的 广度 和 权威 性 。 对 于 流行 
的 客户 端 API 和 高 级 的 管理 主题 ， 如 复制 、 备 份 和 分 片 ， 本 书 都 是 权威 参考 。 
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根据 我 最 近 每 天 使 用 MongoDB 的 经 验 ， 我 相信 本 书 会 始终 不 离 我 左右 的 ， 无 论 安 
装 还 是 进行 分 片 或 备份 式 集 群 的 产品 化 部 署 ， 它 都 是 我 最 好 的 助手 。 任 何 想 仔细 研 
究 使 用 MongoDB 的 人 都 需要 这 本 重要 的 参考 书 。 


Craigslist 软件 工程 师 Jeremy Zawodny 
2010 年 8 月 





河 


XVI 





本 书 的 组 织 结构 


第 1 章 将 简要 讲述 MongoDB 的 背景 : 项 目 创立 原因 、 希 望 达到 的 目标 、 选 用 它 的 理由 。 第 
2 章 会 接着 介绍 一 些 MongoDB 的 核心 概念 和 术语 ， 还 有 如 何 上 手 操作 数据 库 和 shell 的 内 容 。 





部 署 MongoDB 


接 下 来 的 两 章 会 介绍 MongoDB 开发 者 需要 的 基础 知识 。 第 3 章 介绍 了 如 何 执行 一 
些 基本 的 写 入 操作 ， 包 括 在 不 同安 全 和 速度 等 级 下 的 实现 细节 。 第 4 章 主要 介绍 如 
何 来 查找 文档 和 创建 复杂 的 查询 。 这 一 章 还 包括 如 何 迭 代 结 果 和 其 他 一 些 用 于 结果 
处 理 的 方法 ， 如 排序 、 数 量 限 制 和 忽略 。 


进 阶 指南 

之 后 的 三 章 会 深入 探讨 一 些 比 存储 和 检索 数据 更 复杂 的 用 法 。 第 5 章 将 介绍 索引 是 
什么 和 怎么 在 MongoDB 中 使 用 ， 还 介绍 了 用 于 检查 和 修改 索引 的 工具 ， 以 及 索引 
管理 。 第 6 章 介绍 了 多 种 利用 MongoDB 聚集 数据 的 方法 ， 包 括 计 数 、 查 找 唯一 值 、 
文档 分 组 和 MapReduce。 第 7 章 会 对 前 几 章 没有 涉及 的 要 点 做 一 个 补充 ， 如 文件 存 
储 、 服 务 器 端 JavaScript、 数 据 库 命令 和 数据 库 引 用 。 














管理 
接 下 来 的 三 章 编程 的 味道 淡 一 些 ， 侧 重 MongoDB 的 运行 。 第 8 章 讨论 了 启动 数 


XVIl 


据 库 的 多 种 选项 ， 监 控 MongoDB 服务 器 和 维护 部 署 的 安全 性 。 如 何 对 存储 在 
MongoDB 中 的 数据 进行 合理 的 数据 备份 也 在 这 章 介 绍 了 。 第 9 章 包 括 如 何 设立 
MongoDB 的 复制 ， 有 具体 包括 配置 标准 主 从 集群 、 设 置 自动 故障 恢复 。 这 章 还 会 揭 
示 复 制 的 工作 原理 和 调整 选项 。 第 10 章 探讨 了 如 何 水 平 扩展 MongoDB， 包 括 什么 
是 自动 分 片 、 如 何 设置 及 其 对 应 用 程序 的 影响 。 











用 MongoDB 开 发 应 用 

第 11 章 会 介绍 几 个 使 用 MongoDB 的 示例 应 用 ， 这些 应 用 是 使 用 Java、PHP、 
Python 和 Ruby 编写 的 。 这 些 例子 展示 了 如 何 将 本 书 前 面 介绍 的 概念 应 用 到 具体 的 
语言 和 问题 域 中 去 。 





附录 

附录 A 介绍 了 MongoDB 版 本 控制 方案 ， 以 及 如 何在 Windows、OS X 和 Linux 下 安 
装 的 细节 。 附 录 B 介绍 了 MongoDB shell 中 一 些 有 用 的 技巧 和 工具 。 附 录 C 更 详细 
地 介绍 了 MongoDB 的 内 部 工作 原理 : 存储 引擎 、 数 据 格式 和 MongoDB 传输 协议 。 


本 书 排版 规范 

本 书 使 用 的 排版 规范 如 下 所 示 。 
* 楷体 

用 于 表示 新 的 术语 。 





表示 程序 片段 ， 也 在 段落 中 表示 程序 中 使 用 的 变量 、 国 数 名 、 命 令 行 实 用 工具 、 环 
境 变 量 、 语 句 和 关键 字 等 元 素 。 


这 种 字体 表示 用 户 需要 手动 输入 的 命令 或 者 相应 的 文本 。 
。 等 宽 斜 体 


用 户 需 要 根据 自己 所 提供 的 值 或 由 上 下 文 所 确定 的 值 进行 更 改 的 部 分 。 


a 这 个 图 标 代表 小 容 门 、 建 议 或 者 注意 。 








Ee 这 个 标识 代表 警告 。 

使 用 代码 示例 

让 本 书 助 你 一 璧 之 力 。 也 许 你 要 在 自己 的 程序 或 文档 中 用 到 本 书 中 的 代码 。 除 非 大 
段 大 段 地 使 用 ， 否 则 不 必 与 我 们 联系 取得 授权 。 例 如 ， 无 需 请 求 许可 ， 就 可 以 用 本 
书 中 的 几 段 代码 写成 一 个 程序 。 但 是 销售 或 者 发 布 O'Reilly 图 书 中 代码 的 光盘 则 必 
须 事 先 获得 授权 。3 引 用 书 中 的 代码 来 回答 问题 也 无 需 授 权 。 将 大 段 的 示例 代码 整合 
到 你 自己 的 产品 文档 中 则 必须 经 过 许可 。 


我 们 非常 希望 你 能 标明 出 处 ,但 并 不 强求 。 出 处 一 般 含 有 书 名 、 作 者 、 出 版 商 和 
ISBN, 例如 “MongoDB 权威 指南 ，Kristina Chodorow 和 Michael Dirolf (O’Reilly， 
2010) 版 权 所 有 ，978-1-449-38156-1”。 


























如 果 有 关于 使 用 代码 的 未 尽 事宜 ， 可 以 随时 与 我 们 取得 联系 ，permissions@oreilly.com。 


Safari 在 线 图 书 


Safari 在 线 图 书 是 应 需 而 变 的 数字 图 书馆 。 它 能 够 让 你 非常 轻松 地 搜索 7500 多 种 技 
术 性 和 创新 性 参考 书 以 及 视频 ， 以 便 快速 地 找到 需要 的 答案 。 


订阅 后 就 可 以 访问 在 线 图 书馆 内 的 所 有 页 面 和 视频 。 可 以 在 手机 或 其 他 移动 设备 上 
阅读 。 还 能 在 新 书 上 市 之 前 抢先 阅读 ， 也 能 够 看 到 还 在 创作 中 的 书稿 并 向 作者 反馈 
意见 。 复 制 粘贴 代码 示例 、 放 入 收藏 来、 下 载 部 分 章 市 、 标 记 关 键 点 、 做 笔记 其 至 
打印 页 面 等 有 用 的 功能 可 以 节省 大 量 时 间 。 


这 本 书 也 在 其 中 。 欲 访问 本 书 的 电子 版 ,或 者 由 O’Reilly 或 其 他 出 版 社 出 版 的 相关 
图 书 ， 请 到 http://my.safaribooksonline.com 免费 注册 。 


我 们 的 联系 方式 
请 把 对 本 书 的 评论 和 问题 发 给 出 版 社 。 


美国 2 
O’Reilly Media, Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 
中 国 2 
北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 
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O'Reilly 的 每 一 本 书 都 有 专属 网 页 ， 你 可 以 在 那儿 找到 关于 本 书 的 相关 信息 ， 包 括 
勘误 表 、 示 例 代 码 以 及 其 他 的 信息 。 本 书 的 网 站 地 址 是 : 





http:/www.oreilly.com/catalog/9780596805784/ 
中 文书 
http://www.oreilly.com.cn/index.php?func=book&isbn=978-7-115-25112-1 
对 于 本 书 的 评论 和 技术 性 的 问题 ， 请 发 送 电 子 邮 件 到 : 
bookquestions @oreilly.com 
关于 本 书 的 更 多 人 信息、 会议、 资源 中 心 和 网 络 ， 请 访问 以 下 网 站 : 


http://www.oreilly.com 


http://www.oreilly.com.cn 
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MongoDB 是 一 种 强大 、 有 灵活、 可 扩展 的 数据 存储 方式 。 它 扩展 了 关系 型 数据 库 的 
众多 有 用 功能 ， 如 辅助 索引 、 范 围 查询 (range query) 和 排序 。MongoDB 的 功能 非 
常 丰富 ， 比 如 内 置 的 对 MapReduce 式 聚 合 的 支持 ， 以 及 对 地 理 空间 索引 的 支持 。 
要 是 不 能 用 的 话 ， 再 牛 的 技术 也 是 空谈 ，MongoDB 致力 于 容易 上 手 、 便 于 使 用 。 
MongoDB 的 数据 模型 对 开发 者 来 说 非常 友好 ， 配 置 选项 对 于 管理 员 来 说 也 很 轻松 ， 
并 且 有 驱动 程序 和 数据 库 shell 提供 的 自然 语言 式 的 API。MongoDB 会 为 你 扫除 障 
碍 ， 让 你 关注 编程 本 身 而 不 是 为 存储 数据 烦恼 。 


Fh Ws 
1.1 丰富 的 数据 模型 
MongoDB 是 面向 文档 的 数据 库 ， 不 是 关系 型 数据 库 。 放 弃 关 系 模型 的 主要 原因 就 
是 为 了 获得 更 加 方便 的 扩展 性 ， 当 然 还 有 其 他 好 处 。 


基本 的 思路 就 是 将 原来 “ 行 ”(row) 的 概念 换 成 更 加 灵活 的 “文档 ”(document) 模 
型 。 面 向 文档 的 方式 可 以 将 文档 或 者 数组 内 骨 进 来 ， 所 以 用 一 条 记录 就 可 以 表示 非常 
复杂 的 层次 关系 。 使 用 面向 对 象 语言 的 开发 者 恰恰 这 么 看 待 数 据 ， 所 以 感觉 非常 自然 。 
MongoDB 没有 模式 : 文档 的 键 不 会 事先 定义 也 不 会 固定 不 变 。 由 于 没有 模式 需要 
更 改 ， 通 常 不 需要 迁移 大 量 数据 。 不 必 将 所 有 数据 都 放 到 一 个 模子 里 面 ， 应 用 层 可 
以 处 理 新 增 或 者 丢失 的 键 。 这 样 开 发 者 可 以 非常 容易 地 变更 数据 模型 。 


1.2 ”容易 扩展 
应 用 数据 集 的 大 小 在 飞速 增加 。 传 感 器 技术 的 发 展 、 带 宽 的 增加 ， 以 及 可 连接 到 因 
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特 网 的 手持 设备 的 普及 使 得 当下 即便 很 小 的 应 用 也 要 存储 大 量 数据 ， 量 大 到 很 多 数 
据 库 都 应 付 不 来 。T 级别 的 数据 原来 是 闻所未闻 的 ， 现 在 已 经 司空 见 惯 了 。 


由 于 开发 者 要 存储 的 数据 不 断 增 长 ， 他 们 面临 一 个 非常 困难 的 选择 : 该 如 何 扩展 
他 们 的 数据 库 ?” 升 级 呢 ( 买 台 更 好 的 机 器 )， 还 是 扩展 呢 (将 数据 分 散 到 很 多 机 器 
上 ) ? 升级 通常 是 最 省 力气 的 做 法 ， 但 是 问题 也 显而易见 : 大 型 机 一 般 都 非常 昂贵 ， 
最 后 达到 了 物理 极限 的 话 花 多 少 钱 都 买 不 到 更 好 的 机 器 。 对 于 大 多 数 人 和 希望 构建 的 
大 型 Web 应 用 来 说 ， 这 样 做 既 不 现实 也 不 划算 。 而 扩展 就 不 同 了 ， 不 但 经 济 而 且 还 
能 持续 添加 想 要 增加 存储 空间 或 者 提升 性 能 ， 只 需要 买 台 一 般 的 服务 器 加 入 集群 
就 好 了 。 

MongoDB 从 最 初 设计 的 时 候 就 考虑 到 了 扩展 的 问题 。 它 所 采用 的 面向 文档 的 数据 
模型 使 其 可 以 自动 在 多 台 服 务 器 之 间 分 割 数据 。 它 还 可 以 平衡 集群 的 数据 和 负载 ， 
自动 重 排 文 档 。 这 样 开发 者 就 可 以 专注 于 编写 应 用 ， 而 不 是 考虑 如 何 扩展 。 要 是 需 
要 更 大 的 容量 ， 只 需 在 集群 中 添加 新 机 器 ， 然 后 让 数据 库 来 处 理 剩 下 的 事 。 
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1.3 丰富 的 功能 
很 难 界 定 什 么 才 算 作 一 个 功能 : 上 面 提 及 的 算是 功能 吗 ? 关系 型 数据 库 做 不 到 的 算 
吗 ? Memcached 做 不 到 的 呢 ? 其 他 面向 文档 的 数据 库 做 不 到 的 又 如 何 呢 ? 但 无 论 界 
定 的 标准 是 什么 ， 都 可 以 说 MongoDB 拥有 一 些 真正 独特 的 、 好 用 的 工具 ， 其 他 方 
案 不 具备 或 不 完全 具备 这 些 工 具 。 

。 索引 

MongoDB 支持 通用 辅助 索引 ， 能 进行 多 种 快速 查询 ， 也 提供 唯一 的 、 复 合 的 

和 地 理 空间 索引 能 





























。 存储 JavaScript 
开发 人 员 不 必 使 用 存储 过 程 了 ， 可 以 直接 在 服务 端 存 取 JavaScript 的 函数 和 值 。 





。 聚合 


MongoDB 支持 MapReduce 和 其 他 聚合 工具 。 





。 固定 集合 
集合 的 大 小 是 有 上 限 的 ， 这 对 某 些 类 型 的 数据 (比如 日 志 ) 特别 有 用 。 


。 文件 存储 
MongoDB 支持 用 一 种 容易 使 用 的 协议 存储 大 型 文件 和 文件 的 元 数据 。 


有 些 关系 型 数据 库 的 常见 功能 MongoDB 并 不 具备 ， 比 如 联接 (join) 和 复杂 的 多 
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[3] 
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行事 务 。 这 个 架构 上 的 考虑 是 为 了 提高 扩展 性 ， 因 为 这 两 个 功能 实在 很 难 在 一 个 分 
布 式 系 统 上 实现 。 


1.4 不 牺牲 速度 


卓越 的 性 能 是 MongoDB 的 主要 目标 ， 也 极 大 地 影响 了 设计 上 的 很 多 决定 。 
MongoDB 使 用 MongoDB 传输 协议 作为 与 服务 器 交互 的 主要 方式 (与 之 对 应 的 协 
议 需 要 更 多 的 开销 ， 如 HITP/REST)。 它 对 文档 进行 动态 填充 ， 预 分 配 数据 文件 ， 
用 空间 换取 性 能 的 稳定 。 上 默认 的 存储 引擎 中 使 用 了 内 存 映 射 文件 ， 将 内 存 管理 工作 
交 给 操作 系统 去 处 理 。 动 态 查 询 优 化 器 会 “ 记 住 ”执行 查询 最 高 效 的 方式 。 总 之 ， 
MongoDB 在 各 个 方面 都 充分 考虑 了 性 能 。 


虽然 MongoDB 功能 强大 ， 尽 量 保持 关系 型 数据 库 的 众多 特性 ， 但 是 它 并 不 是 要 具 
备 所 有 的 关系 型 数据 库 的 功能 。 它 尽 可 能 地 将 服务 器 端 处 理 逻 辑 交 给 客户 端 (由 驱 
动 程序 或 者 用 户 的 应 用 程序 处 理 ) 。 这 样 精简 的 设计 使 得 MongoDB 获得 了 非常 好 的 
性 能 。 


1.5 简便 的 管理 


MongoDB 尽量 让 服务 器 自治 来 简化 数据 库 的 管理 。 除 了 启动 数据 库 服务 器 之 外 ， 
几乎 没有 什么 必要 的 管理 操作 。 如 果 主 服务 器 挂 掉 了 ，MongoDB 会 自动 切换 到 备 
份 服务 器 上 ， 并 且 将 备份 服务 器 提升 为 活跃 服务 器 。 在 分 布 式 环境 下 ， 集 群 只 需要 
知道 有 新 增加 的 节点 ， 就 会 自动 集成 和 配置 新 节点 。 


MongoDB 的 管理 理念 就 是 尽 可 能 地 让 服务 器 自动 配置 ， 让 用 户 能 在 需要 的 时 候 调 
整 设 置 (但 不 强制 )。 


1.6 ”其 他 内 容 


在 本 书 中 ， 我 们 还 会 花 些 时 间 追 斋 一 下 在 开发 MongoDB 的 过 程 中 一 些 决定 的 原因 
和 动机 ， 和 希望 通过 这 种 方式 来 阐释 MongoDB 的 理念 。 毕 竞 ，MongoDB 的 愿景 是 对 
自身 最 好 的 诠释 一 一 建立 一 种 灵活 、 高 效 、 易 于 扩展 、 功 能 完备 的 数据 库 。 
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入 门 





MongoDB 非常 强大 ， 同 时 也 很 容易 上 手 。 本 章 会 介绍 一 些 MongoDB 的 基本 概念 。 


。 文档 是 MongoDB 中 数据 的 基本 单元 ， 非 常 类 似 于 关系 数据 库 管 理 系 统 中 的 行 (但 
是 比 行 要 复杂 得 多 )。 

。 类 似 地 ， 集 会 可 以 被 看 做 是 没有 模式 的 表 。 

。 MongoDB 的 单个 实例 可 以 容纳 多 个 独立 的 数据 库 ， 每 一 个 都 有 自己 的 集合 和 权限 。 

。 MongoDB 自 带 简洁 但 功能 强大 的 JavaScript shell， 这 个 工具 对 于 管理 MongoDB 实 
例 和 操作 数据 作用 非常 大 。 

。 每 一 个 文档 都 有 一 个 特殊 的 键 "_ id"， 它 在 文档 所 处 的 集合 中 是 唯一 的 。 


2.1 文档 


文档 是 MongoDB 的 核心 概念 。 多 个 键 及 甚 关 联 的 值 有 序 地 放置 在 一 起 便 是 文档 。 
每 种 编程 语言 表示 文档 的 方法 不 大 一 样 ， 但 大 多 数 编程 语言 都 有 相通 的 一 种 数据 结 
构 ， 比 如 映射 、 散 列 或 字典 。 例 如 ， 在 JavaScript 里 面 ， 文 档 表示 为 对 象 ; 























{"greeting" : "Hello, world!"} 


这 个 文档 只 有 一 个 键 "greeting"， 其 对 应 的 值 为 "Hello， world!"。 绝 大 多 数 
情况 下 ， 文 档 会 比 这 个 简单 的 例子 复杂 得 多 ， 经 常会 包含 多 个 键 / 值 对 : 


{"greeting" : "Hello, world!", "foo" : 3} 
这 个 例子 很 好 地 解释 了 几 个 十 分 重要 的 概念 。 
。 文档 中 的 键 / 值 对 是 有 序 的 ， 上 面 的 文档 和 下 面 的 文档 是 完全 不 同 的 : 


{"foo" : 3, "greeting" : "Hello, world!"} 





























a 通常 文档 中 键 的 顺序 并 不 重要 。 实 际 上 ， 有 些 编程 语言 默认 对 文档 的 呈现 
a 根本 就 不 顾 号 顺序 (如 Python 的 字典 ，Perl 和 Ruby 1.8 中 的 散 列 )。 这 些 
必 全 :语言 的 驱动 包含 特殊 的 机 制 ， 会 在 少数 必要 的 情况 下 指定 文档 的 排序 。 本 








BB 会 时 常 提 到 这 些 情况 。 
。 文档 中 的 值 不 仅 可 以 是 在 双 引 号 里 面 的 字符 串 ， 还 可 以 是 其 他 几 种 数据 类 型 (其 至 


可 以 是 整个 嵌入 的 文档 , 详 见 2.6.5 节 )。 这 个 例子 中 "greeting" 的 值 是 个 字符 串 ， 
而 "foo" 的 值 是 个 整数 。 


文档 的 键 是 字符 串 。 除 了 少数 例外 情况 ， 键 可 以 使 用 任意 UTF-8 字符 。 


。 键 不 能 含有 \0 ( 空 字符 )。 这 个 字符 用 来 表示 键 的 结尾 。 

。 .和 $ 有 特别 的 意义 ， 只 有 在 特定 环境 下 才能 使 用 ， 后 面 的 章 方 会 详细 说 明 。 通 常 
来 说 就 是 被 保留 了 ， 使 用 不 当 的 话 ， 驱 动 程序 会 提示 。 

。 以 下 划 线 “ ”开头 的 键 是 保留 的 ， 虽 然 这 个 并 不 是 严格 要 求 的 。 


MongoDB 不 但 区 分 类 型 ， 也 区 分 大 小 写 。 例 如 ， 下 面 的 两 个 文档 是 不 同 的 : 








{"foo" : 3} 
("EGO 二 mom} 
以 下 的 文档 也 是 不 同 的 : 
{"foo" : 3} 
{"Foo" : 3} 


还 有 一 个 非常 重要 的 事项 需要 注意 ，MongoDB 的 文档 不 能 有 重复 的 键 。 例 如 ， 下 
面 的 文档 是 非法 的 : 


{"greeting" : "Hello, world!", "greeting" : "Hello, MongoDB!"} 


2.2 集合 
集合 就 是 一 组 文档 。 如 果 说 MongoDB 中 的 文档 类 似 于 关系 型 数据 库 中 的 行 ， 那 么 
集合 就 如 同 表 。 


2.2.1 无 模式 
集合 是 无 模式 的 。 这 意味 着 一 个 集合 里 面 的 文档 可 以 是 各 式 各 样 的 。 例 如 ， 下 面 两 
个 文档 可 以 存在 于 同一 个 集合 里 面 : 
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{"greeting" : "Hello, world!"} 

{"foo" : 5} 
注意 ， 上 面 的 文档 不 光 是 值 的 类 型 不 同 (字符 串 和 整数 )， 它 们 的 键 也 是 完全 不 一 样 
的 。 因 为 集合 里 面 可 以 放置 任何 文档 ， 随 之 而 来 的 一 个 问题 是 :“ 还 有 必要 使 用 多 个 
集合 吗 ? ” 问 得 好 ! 要 是 没 必 要 对 各 种 文档 划分 模式 ， 那 么 为 什么 还 要 使 用 多 个 集 
合 呢 ? 下 面 是 一 些 理由 。 


。 把 各 种 各 样 的 文档 都 混在 一 个 集合 里 面 ,无 论 对 于 开发 者 还 是 管理 员 来 说 都 是 下 梦 。 
开发 者 要 么 确保 每 次 查询 只 返回 需要 的 文档 种 类 ， 要 么 让 执行 查询 的 应 用 程序 来 处 
理 所 有 不 同类 型 的 文档 。 如 果 查 询 博 客 文章 还 要 吻 除 那些 含有 作者 数据 的 文档 ， 就 
很 令 人 恼火 。 

。 在 一 个 集合 里 面 查询 特定 类 型 的 文档 在 速度 上 也 很 不 划算 ， 分 开 做 多 个 集合 要 快 得 
多 。 例 如 ,集合 里 面 有 个 标注 类 型 的 键 ,现在 查询 其 值 为 “skim”、“whole” 或 “chunky 
monkey 的 文档 ,就 会 非常 慢 。 如 果 按 照 名 字 分 割 成 3 个 集合 的 话 ,查询 会 快 很 多 ( 参 
见 “ 子 集合 ”部 分 ) 

。 把 同 种 类 型 的 文档 放 在 一 个 集合 里 ， 这 样 数据 会 更 加 集中 。 从 只 含有 博客 文章 的 
集合 里 面 查 询 儿 篇 文章 ,会 比 从 含有 文章 和 作者 数据 的 集合 里 面 查 出 几 篇 文章 少 
消耗 磁盘 寻 道 操作 。 

。 当 创建 索 引 的 时 候 ， 文 档 会 有 附加 的 结构 〈 尤 其 是 有 唯一 索引 的 时 候 )。 索 引 是 按 
照 集合 来 定义 的 。 把 同 种 类 型 的 文档 放 入 同一 个 集合 里 面 ， 可 以 使 索引 更 加 有 效 。 


你 已 经 看 到 了 ， 的 确 有 很 多 理由 创建 一 个 模式 把 相关 类 型 的 文档 规整 到 一 起 。 但 
MongoDB 对 此 还 是 不 做 强制 要 求 ， 让 开发 者 更 有 灵活 性 。 


























2.2.2 命名 
我 们 可 以 通过 名 字 来 标识 集合 。 集 合 名 可 以 是 满足 下 列 条 件 的 任意 UTF-8 字符 串 。 


。 集合 名 不 能 是 空 字符 串 ""。 

。 集合 名 不 能 含有 \0 字符 ( 空 字符 ) ， 这 个 字符 表示 集合 名 的 结尾 。 

。 集合 名 不 能 以 “system.” 开 头 ， 这 是 为 系统 集合 保留 的 前 级 。 例 如 system.users 这 个 集 
合 保 存 着 数据 库 的 用 户 信 息 , system.namespaces 集合 保存 着 所 有 数据 库 集 合 的 信息 。 

。 用 户 创建 的 集合 名 字 不 能 含有 保留 字符 $。 有 些 驱 动 程序 的 确 支持 在 集合 名 里 面包 
含 $， 这 是 因为 某 些 系统 生成 的 集合 中 包含 该 字符 。 除 非 你 要 访问 这 种 系统 创建 的 
集合 ， 否 则 千 万 不 要 在 名 字 里 出 现 $。 











子 集合 
组 织 集合 的 一 种 惯例 是 使 用 “.” 字 符 分 开 的 按 命 名 空间 划分 的 子 集合 。 例 如 ， 一 个 
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带 有 博客 功能 的 应 用 可 能 包含 两 个 集合 ， 分 别 是 blog.posts 和 blog.authors。 
这 样 做 的 目的 只 是 为 了 使 组 织 结 构 更 好 些 ， 也 就 是 说 plog 这 个 集合 (这 里 根本 就 
不 需要 存在 ) 及 其 子 集合 没有 任何 关系 。 


虽然 子 集合 没有 特别 的 地 方 ， 但 还 是 很 有 用 ， 很 多 MongoDB 工具 中 都 包含 子 集合 。 


。 GridFS 是 一 种 存储 大 文件 的 协议 ， 使 用 子 集 合 来 存储 文件 的 元 数据 ， 这 样 就 与 内 
容 块 分 开 了 (关于 GridFS 详 见 第 7 章 )。 














。 MongoDB 的 Web 控制 台 通 过 子 集合 的 方式 将 数据 组 织 在 DBTOP 部 分 (关于 管理 
详 见 第 8 章 )。 

。 绝 大 多 数 驱 动 程序 都 提供 语法 糖 ， 为 访问 指定 集合 的 子 集合 提供 方便 。 例 如 ， 在 数 
据 库 shell 里 面 , db .blog 代表 blog 集合 , db .blog .posts 代表 blog .posts 集合 。 


在 MongoDB 中 使 用 子 集 合 来 组 织 数据 是 很 好 的 方法 ， 在 此 强烈 推荐 。 


2.3 数据 库 


MongoDB 中 多 个 文档 组 成 集合 ， 同 样 多 个 集合 可 以 组 成 数据 库 。 一 个 MongoDB 实 
例 可 以 承载 多 个 数据 库 ， 它 们 之 间 可 视 为 完全 独立 的 。 每 个 数据 库 都 有 独立 的 权限 
控制 ， 即 便 是 在 磁盘 上 ， 不 同 的 数据 库 也 放置 在 不 同 的 文件 中 。 将 一 个 应 用 的 所 有 
数据 都 存储 在 同一 个 数据 库 中 的 做 法 就 很 好 。 要 想 在 同一 个 MongoDB 服务 器 上 存 
放 多 个 应 用 或 者 用 户 的 数据 ， 就 要 使 用 不 同 的 数据 库 了 。 


和 集合 一 样 ， 数 据 库 也 通过 名 字 来 标识 。 数 据 库 名 可 以 是 满足 以 下 条 件 的 任意 
UTF-8 字符 串 。 























。 不 能 是 空 字符 串 ("") 。 

。 不 得 含有 ' (空格 )、. 、$ 、/、\ 和 \0 ( 空 字符 )。 
。 应 全 部 小 写 。 

。 最 多 64 字 市 。 


要 记 住 一 点 ， 数 据 库 名 最 终 会 变 成 文件 系统 里 的 文件 ， 这 也 就 是 有 如 此 多 限制 的 原因 。 


有 一 些 数据 库 名 是 保留 的 ， 可 以 直接 访问 这 些 有 特殊 作用 的 数据 库 。 这 些 数据 库 如 
下 所 示 。 











admin 


从 权限 的 角度 来 看 ， 这 是 “root ”数据 库 。 要 是 将 一 个 用 户 添 加 到 这 个 数据 库 ， 
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这 个 用 户 自动 继承 所 有 数据 库 的 权限 。 一 些 特定 的 服务 器 端 命 令 也 只 能 从 这 


数据 库 运 行 ， 比 如 列 出 所 有 的 数据 库 或 者 关闭 服务 器 。 





。 local 
这 个 数据 永远 不 会 被 复制 ， 可 以 用 来 存储 限于 本 地 单 台 服务 器 的 任意 集合 
于 复制 和 本 地 数据 库 详 见 第 9 章 ) 





。 config 


( 关 


当 Mongo 用 于 分 片 设置 时 (参见 第 10 章 ) ，config 数据 库 在 内 部 使 用 ， 用 于 保 





存 分 片 的 相关 信息 。 
把 数据 库 的 名 字 放 到 集合 名 前 面 ， 得 到 的 就 是 集合 的 完全 限定 名 ， 称 为 命名 空间 。 











例 


如 ， 如 果 你 在 cms 数据 库 中 使 用 blog.posts 集合 ， 那 么 这 个 集合 的 命名 空间 就 是 
cms .blog.posts。 命 名 空间 的 长 度 不 得 超过 121 字 节 ， 在 实际 使 用 当中 应 该 小 于 100 





字 节 。 关 于 MongoDB 中 集合 的 命名 空间 和 内 部 表示 的 更 多 信息 ， 可 以 参考 附录 C。 


2.4 ”启动 MongoDB 


MongoDB 一 般 作 为 网 络 服务 器 来 运行 ， 客 户 端 可 以 连接 到 该 服务 器 并 执行 操作 。 
启动 该 服务 器 ， 需 要 运行 mongod 可 执行 文件 : 


$ ./mongod 

./mongod --help for help and startup options 

Sun Mar 28 12:31:20 Mongo DB : starting : pid = 44978 port = 27017 
dbpath = /data/db/ master = 0 slave = 0 64-bit 

Sun Mar 28 12:31:20 db version v1l.5.0-pre-, pdfile version 4.5 

Sun Mar 28 12:31:20 git version: ... 

Sun Mar 28 12:31320 SYS nfo% 。,， 

Sun Mar 28 12:31:20 waiting for connections on port 27017 

Sun Mar 28 12:31:20 web admin interface listening on port 28017 


或 者 在 Windows 下 ， 这 样 操作 : 





$ mongod .exe 
二 二 


关于 安装 MongoDB 的 详细 信息 ， 参 见 附录 A。 
Me 动 
~ 


1 
1 





mongod 在 没有 参数 的 情况 下 会 使 用 默认 数据 目录 /data/db (在 Windows 下 是 CN 





要 


data\db\)， 并 使 用 27017 端口 。 如 果 数 据 目 录 不 存在 或 者 不 可 写 ， 服 务 器 会 启动 失 
败 。 所 以 在 启动 MongoDB 前 ， 创 建 数据 目录 (比如 mkdir -p /data/db)， 并 确保 





入 门 | 


9 


对 该 目录 有 写 权限 是 很 重要 的 。 如 果 端 口 被 占用 ， 启 动 也 会 失败 。 通 常 这 是 由 于 
MongoDB 实例 已 经 在 运行 了 。 





服务 器 会 打印 版 本 和 系统 信息 ， 然 后 等 待 连接 。 上 默认 情况 下 ，MongoDB 监听 27017 端口 。 


mongod 还 会 启动 一 个 非常 基本 的 HTTP 服务 器 ， 监 听 数 字 比 主 端口 号 高 1000 的 端 
口 ， 也 就 是 28017 端口 。 这 意味 着 你 可 以 通过 浏览 器 访问 http://localhost:28017 来 
获取 数据 库 的 管理 信息 。 


在 启动 服务 器 的 shell 下 可 以 键入 Ctrl-C 来 完全 地 停止 mongod 的 运行 。 








想 要 了 解 启动 和 停止 MongoDB 的 更 多 细节 ， 请 参见 8.1 节 ， 想 要 了 解 管理 
心 ' 用。 接口 的 更 多 内 容 ， 可 以 参见 8.2.1 节 。 








2.5 MongoDB shell 


MongoDB 自 带 一 个 JavaScript shell， 可 以 从 命令 行 与 MongoDB 实例 交互 。 这 个 
shell 非常 有 用 ， 通 过 它 可 以 执行 管理 操作 、 检 查 运行 实例 ， 亦 或 做 其 他 尝试 。 这 个 
mongo shell 对 于 使 用 MongoDB 来 说 是 至 关 重 要 的 工具 ， 本 书后 面 也 会 经 常 使 用 这 
个 工具 


vo 


2.5.1 运行 shell 
运行 mongo 启动 shell: 


$ ./mongo 

MongoDB shell version: 1.6.0 
访 阁 十 交 “六 人 闪电 

connecting to: test 

type "help" for help 


> 


shell 会 在 启动 时 自动 连接 MongoDB 服务 器 ， 所 以 要 确保 在 使 用 shell 之 前 启动 mongod。 


shell 是 功能 完备 的 JavaScript 解释 器 ， 可 以 运行 任何 JavaScript 程序 。 为 了 证 明 这 
一 点 ， 我 们 运行 几 个 简单 的 数学 运算 : 


计生 O00 
200 
>x/ 5; 
40 


还 可 以 充分 利用 JavaScript 的 标准 库 。 








> Math.sin(Math.PI / 2); 

生 

> new Date("2010/1/1"); 

"Fri Jan 01 2010 00:00:00 GMT-0500 (EST)" 

> "Hello, World!".replace ("World", "MongoDB"); 
Hello, MongoDB! 


也 可 以 定义 和 调用 JavaScript 国 数 : 


> function factorial (n) { 
. if (n <= 1) return 1; 
. return n * factorial(n - 1); 
se 
> factorial(5) ; 
小安 自 


注意 ， 可 以 使 用 多 行 命令 。 这 个 shell 会 检测 输入 的 JavaScript 语句 是 否 写 完 ， 如 没 
写 完 还 可 以 在 下 一 行 接着 写 。 





2.5.2 MongoDB 客 户 端 


虽然 能 运行 任意 JavaScript 程序 很 酷 ， 但 shell 的 真正 威力 还 在 于 它 是 一 个 独立 的 Mongo- 
DB 客户 端 。 开 启 的 时 候 ，shell 会 连 到 MongoDB 服务 器 的 test 数据 库 ， 并 将 这 个 数据 
库 连 接 赋值 给 全 局 变量 db。 这 个 变量 是 通过 shell 访问 MongoDB 的 主要 入 口 点 。 


shell 还 有 些 非 JavaScript 语法 的 扩展 ， 是 为 了 方便 习惯 于 SQL shell 的 用 户 而 添加 
的 。 这 些 扩展 并 不 提供 额外 的 功能 ， 但 它们 是 很 棒 的 语法 糖 。 例 如 ， 最 重要 的 操作 
之 一 就 是 选择 要 使 用 的 数据 库 : 


> USe foobar 
Switched to db foobar 


现在 如 果 看 看 db， 会 发 现 其 指向 foobar 数据 库 : 








»- Ob 
foobar 


因为 这 是 一 个 JavaScript shell， 所 以 键入 一 个 变量 会 将 变量 的 值 转换 为 字符 串 (这 
里 就 是 数据 库 名 ) 并 打印 出 来 。 


可 以 通过 ap 变量 来 访问 其 中 的 集合 。 例 如 ab .baz 返回 当前 数据 库 的 baz 集合 。 既 然 
现在 可 以 在 shell 中 访问 集合 ， 那么 基本 上 就 可 以 拟人 村 几乎 所 有 的 数据 库 操作 了 。 








2.5.3 shell 中 的 基本 操作 
在 shell 查看 操作 数据 会 用 到 4 个 基本 操作 : 创建 、 读 取 、 更 新 和 删除 (CRUD)。 
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1. 创建 


insert 国 数 添 加 一 个 文档 到 集合 里 面 。 例 如 ， 假 设 要 存储 一 篇 博客 文章 。 首 先 ， 
创建 一 个 局 部 变量 post， 内 容 是 代表 文档 的 JavaScript 对 象 。 里 面 会 有 "title"， 
"content" 和 "aqate" (发 表 日 期 ) 几 个 键 。 








> post = {"title" : "My Blog Post", 
: Gontent™ : "Here's my blog eg 
... "date" : new Date()} 
{ 
"title" : "My Blog Post", 
voOoOntentY, £. "Here rs ny blog SEE 5 
"date" : "Sat Dec 12 2009 11:23:21 GMT-0500 (EST)" 


} 


这 个 对 象 是 个 有 效 的 MongoDB 文档 ， 所 以 可 以 用 insert 方法 将 其 保存 到 blog 集 


合 中 : 


> db.blog.insert (post) 


这 篇 文章 已 经 被 存 到 数据 库 里 面 了 。 可 以 调用 集合 的 fina 方法 来 查看 一 下 : 





> dqb.blog.fina() 


{ 


} 


"_id" : ObjectId("4b23c3ca7525f35f94b60a2d")， 
"titler MY BlLog Post", 

vOGOntent r,s THeres My Hlog Dot 

"date" : "Sat Dec 12 2009 11:23:21 GMT-0500 (EST)" 


除了 我 们 输入 的 键 / 值 对 都 完整 地 被 保存 下 来 ， 还 有 一 个 额外 添加 的 键 "_ia"。 本 
章 的 最 后 会 解释 "_iq" 突然 出 现 的 原因 。 


2. 读 取 


find 会 返回 集合 里 面 所 有 的 文档 。 若 只 是 想 查 看 一 个 文档 ， 可 以 用 findone: 





> db.blog.findone () 


{ 


} 


"_id" : ObjectId("4b23c3ca7525f35f94b60a2d")， 
"title" : "My Blog Post", 

aontent™ 全 "Here's. my blog post.", 

"date" : "Sat Dec 12 2009 11:23:21 GMT-0500 (EST)" 


find 和 findone 可 以 接受 查询 文档 形式 的 限定 条 件 。 这 将 通过 查询 限制 匹配 的 文 
档 。 使 用 find 时 ，shell 自动 显示 最 多 20 个 匹配 的 文档 ,但 可 以 获取 更 多 文档 。 关 
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合 兰 


条 2 和 章 


于 查询 的 更 多 内 容 ， 参 见 第 4 章 。 


3. 更 新 

如 果 要 更 改 博客 文章 ， 就 要 用 到 update 了 。update 接受 (至 少 ) 两 个 参数 : 第 一 
个 是 要 更 新 文档 的 限定 条 件 ， 第 二 个 是 新 的 文档 。 假 设 决定 给 我 们 先前 写 的 文章 增 
加 评论 内 容 ， 则 需要 增加 一 个 新 的 键 ， 对 应 的 值 是 存放 评论 的 数组 。 





第 一 步 修 改变 量 post ， 增 加 "comments" 键 : 


> post .comments = [] 


[ ] 
然后 执行 upaate 操作 ， 用 新 版 本 的 文档 替换 标题 为 “My Blog Post” 的 文章 : 
> db.blog.update({title : "My Blog Post"}, post) 


文档 已 经 有 了 "comments" 键 。 再 用 fing 查看 一 下 ， 可 以 看 到 新 的 键 : 


> db.blog.find() 

{ 
"_id" : ObjectId("4b23c3ca7525f35f94b60a2Q") ， 
"title" : "My Blog Post", 
"oontent : "Neres. my Dlog pOSt,Y, 
"date" : "Sat Dec 12 2009 11:23:21 GMT-0500 (EST)" 
"comments" : [|] 


} 


4. 删除 

remove 用 来 从 数据 库 中 永久 性 地 删除 文档 。 在 不 使 用 参数 进行 调用 的 情况 下 ， 它 
会 删除 一 个 集合 内 的 所 有 文档 。 它 也 可 以 接受 一 个 文档 以 指定 限定 条 件 。 例 如 ， 下 
面 的 命令 会 删除 我 们 刚刚 创建 的 文章 : 








> db.blog.remove({title : "My Blog Post"})) 


集合 现在 又 是 空 的 了 。 


2.5.4 ”使 用 shell 的 窑 门 


由 于 mongo 是 个 JavaScript shell， 通 过 在 线 查 看 JavaScript 的 文档 能 获得 很 多 帮助 。 
shell 本 身 内 置 了 帮助 文档 ， 可 以 通过 help 命令 查看 。 














> help 
HELP 
show dbs show database names 
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Show collections Show collections in current database 


show users show users in current database 

show profile Show recent system.profile entries w. time >= lms 
use <db name> set current database to <db name> 

db.help () help on DB methods 

db.foo.help() help on collection methods 

db te6. frrnd() list objects in collection foo 

db.foo.find( {a:1}) list objects in foo where a == 1 

it result of the last line evaluated 


使 用 ab .help () 可 以 查看 数据 库 级 别 的 命令 的 帮助 ， 集 合 的 相关 帮助 可 以 通过 db. 
foo.help () 来 查看 。 

有 个 了 解 函 数 功用 的 技巧 ， 就 是 在 输入 的 时 候 不 要 输 括 号 。 这 样 就 会 显示 该 函数 的 
JavaScript 源 代 码 。 例 如， 如 果 想 看 看 update 的 机 理 ， 或 者 就 是 为 了 看 看 参数 顺 
序 ， 可 以 这 么 做 : 


> db.foo.update 
function (query, obj, upsert, multi) { 





assert (query, "need a query"); 
assert (obj, "need an object"),; 
this. validateObject (obj); 
this. mongo.update(this. fullName, query, obj, 
upsert ? true : false, multi ? true : false); 


} 


要 查看 shell 提供 的 所 有 自动 生成 的 JavaScript 函数 API 文档 ， 可 访问 http://api.mon- 
godb.org/js。 


灼 脚 的 集合 名 

使 用 ab . 集合 名 的 方式 来 访问 集合 一 般 不 会 有 问题 ， 但 如 果 和 集合 名 恰好 是 数据 库 类 
的 一 个 属性 就 有 问题 了 。 例 如 ， 要 访问 version 这 个 集合 ， 使 用 dp .version 就 
不 行 ， 因 为 ab .version 是 个 数据 库 函 数 ( 它 返回 正在 运行 的 MongoDB 服务 器 的 
版 本 )。 


> db.version 
functionm ()  { 
return this.serverBuildIinfo() .version; 





} 


只 有 当 JavaScript 在 db 中 找 不 到 指定 的 属性 时 ， 才 会 将 其 作为 集合 返回 。 当 有 属性 
与 目标 集合 同名 时 ， 可 以 使 用 getcollection 国 数 : 





> db.getCollection("version"); 
test.version 


要 查看 名 称 中 含有 无 效 JavaScript 字符 的 集合 ， 这 个 函数 也 可 以 派 上 用 场 。 比 如 foo- 
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bar 是 个 有 效 的 集合 名 ， 但 是 在 JavaScript 中 就 变 成 了 变量 相 减 了 。 通 过 ab .get- 
Collection ("foo-bax") 可 以 得 到 foo-bax 集合 。 

在 JavaScript 中 ，x.y 与 x['y'] 完全 等 价 。 这 就 意味 着 不 但 可 以 直 “ 呼 ”其 名 ， 也 可 
以 使 用 变量 来 访问 子 集 合 。 也 就 是 说 ， 当 需要 对 blog 的 每 个 子 集合 执行 操作 时 ， 只 需 
要 像 下 面 这 样 迭 代 就 好 了 : 


Var collections = ["posts", "comments", "authors"]; 








for (i in collections) { 
dostuff (db.blog[collections{[i]]); 


} 
而 不 是 使 用 下 面 这 种 笨 笨 的 写法 : 


dostuff (db.blog.posts); 
dostuff (db.blog.comments); 
dostuff (db.blog.authors).; 


2.6 ”数据 类 型 

本 章 的 开始 讲 了 一 些 文档 的 基本 概念 ， 现 在 大 家 应 该 会 启动 并 运行 MongoDB, 在 
shell 里 面 动手 试 一 试 。 这 一 部 分 会 更 加 深入 一 些 。MongoDB 支持 将 多 种 数据 类 型 
作为 文档 中 的 值 。 本 节 我 们 就 来 逐一 看 看 。 


2.6.1 基本 数据 类 型 

MongoDB 的 文档 类 似 于 JSON， 在 概念 上 和 JavaScript 中 的 对 象 神 似 。JSON 是 一 种 
简单 的 表示 数据 的 方式 ， 其 规范 可 用 一 段 文字 描述 (请 到 http://www.json.org 自行 验 
证 )， 仅 包含 6 种 数据 类 型 。 这 带 来 很 多 好 处 : 易于 理解 、 易 于 解析 、 易 于 记忆 。 但 
另外 一 方面 ，JSON 的 表现 力也 有 限制 ， 因 为 只 有 null、 布 尔 、 数 字 、 字 符 串 、 数 
组 和 对 象 几 种 类 型 。 


虽然 这 些 类 型 的 表现 力 已 经 足够 强大 ， 但 是 对 于 绝 大 多 数 应 用 来 说 还 需要 另外 一 些 不 
可 或 缺 的 类 型 ， 尤 其 是 与 数据 库 打 交道 的 那些 应 用 。 例 如 ，JSON 没有 日 期 类 型 ， 这 
会 使 得 处 理 本 来 简单 的 日 期 问题 变 得 非常 繁琐 。 只 有 一 种 数字 类 型 ， 没 法 区 分 浮 点 数 
和 整数 ， 更 不 能 区 分 32 位 和 64 位 数字 。 也 没有 办 法 表示 其 他 常用 类 型 ， 如 正则 表达 
MongoDB 在 保留 JSON 基本 的 键 / 值 对 特性 的 基础 上 ,添加 了 其 他 一 些 数 据 类 型 。 
在 不 同 的 编程 语言 下 这 些 类 型 的 表示 有 些许 差异 ， 下 面 列 出 了 MongoDB 通常 支持 
的 一 些 类 型 ， 同 时 说 明了 在 shell 中 这 些 类 型 是 如 何 表示 为 文档 的 一 部 分 的 。 
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。 null 
null 用 于 表示 空 值 或 者 不 存在 的 字段 。 


{x nul} 


。 布尔 
布尔 类 型 有 两 个 值 'true' 和 ' false': 


{"x" : true} 


。 32 位 整数 

shell 中 这 个 类 型 不 可 用 。 前 面 提 到 ，JavaScript 仅 支 持 64 位 浮 点 数 ， 所 以 32 
位 整数 会 被 自动 转换 。 

。 064 位 整数 


shell 也 不 支持 这 个 类 型 。shell 会 使 用 一 个 特殊 的 内 骨 文 档 来 显示 64 位 整数 ， 
详 见 2.6.2 节 。 





。 64 位 浮 点 数 

shell 中 的 数字 都 是 这 种 类 型 。 下 面 是 一 个 浮 点 数 : 
Ce e314 

("RT 3} 

。 字符 虽 

UTF-8 字符 串 都 可 表示 为 字符 串 类 型 的 数据 : 

{"x" : "foobar"} 


。 符号 


shell 不 支持 这 种 类 型 。shell 将 数据 库 里 的 符号 类 型 转换 成 字符 串 。 


。 对 象 id 

对 象 id 是 文档 的 12 字 节 的 唯一 ID。 详 见 2.6.6 市 : 

{"x" : objectId()} 

。 日 期 

日 期 类 型 存储 的 是 从 标准 纪元 开始 的 毫秒 数 。 不 存储 时 区 : 
{"x" : new Date()} 


。 正则 表达 式 
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文档 中 可 以 包含 正则 表达 式 ， 采 用 JavaScript 的 正则 表达 式 语法 : 


{x™ : fooBar/i} 

。 代码 

文档 中 还 可 以 包含 JavaScript 代码 : 
人 
。 二 进 制 数据 


二 进 制 数据 可 以 由 任意 字 节 的 串 组 成 。 不 过 shell 中 无 法 使 用 。 


。 最 大 值 
BSON 包括 一 个 特殊 类 型 ， 表 示 可 能 的 最 大 值 。shell 中 没有 这 个 类 型 。 


。 最 小 值 
BSON 包括 一 个 特殊 类 型 ， 表 示 可 能 的 最 小 值 。shell 中 没有 这 个 类 型 。 


。 未 定义 
文档 中 也 可 以 使 用 未 定义 类 型 (JavaScript 中 null 和 undefined 是 不 同 的 类 
型 )。 
{"x" : undefined)} 
。 数组 
值 的 集合 或 者 列表 可 以 表示 成 数组 : 
人 
。 内 嵌 文 档 
文档 可 以 包含 别 的 文档 ， 也 可 以 作为 值 通 入 到 父 文档 中 : 
人 
2.6.2 ”数字 


JavaScript 中 只 有 一 种 “数字 ”类 型 。 因 为 MongoDB 中 有 3 种 数字 类 型 (32 位 整 
数 、64 位 整数 和 64 位 浮 点 数 )，shell 必须 绕 过 JavaScript 的 限制 。 默 认 情 况 下 ， 
shell 中 的 数字 都 被 MongoDB 当做 是 双 精 度数 。 这 意味 着 如 果 你 从 数据 库 中 获得 的 
是 一 个 32 位 整数 ， 修 改 文档 后 ， 将 文档 存 回 数据 库 的 时 候 ， 这 个 整数 也 被 转换 成 
了 淫 点 数 ， 即 便 保持 这 个 整数 原封 不 动 也 会 这 样 的 。 所 以 明智 的 做 法 是 尽量 不 要 在 
shell 下 覆盖 整个 文档 。( 关 于 修改 指定 键 的 值 的 内 容 参 见 第 3 章 。) 


数字 只 能 表示 为 双 精 度数 〈64 位 浮 点 数 ) 的 另外 一 个 问题 是 ， 有 些 64 位 的 整数 并 不 能 
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精确 地 表示 为 64 位 浮 点 数 。 所 以 ， 要 是 存 人 了 一 个 64 位 整数 ， 然 后 在 shell 中 查看 ， 它 
会 显示 一 个 内 和 瞬 文 档 ， 表 示 可 能 不 准确 。 例 如 ， 保 存 一 个 文档 :， 其 中 "myInteger" 键 
的 值 设 为 一 个 64 位 整数 一 一 3， 然 后 在 shell 中 查看 ， 应 该 是 下 面 这 样 的 : 














> doc = db.nums.findone() 


{ 
"_id" : ObjectId("4cObeecfd096a2580fe6fa08"), 
"myInteger" : { 
"floatApprox" : 3 
} 


} 


数据 库 中 的 数字 是 不 会 改变 的 【除非 你 修改 了 ， 尔 后 又 通过 shell 保存 回去 了， 这样 
它 就 会 被 转换 成 浮 点 类 型 ) ， 内 租 文 档 只 表示 shell ee 64 位 浮 点 数 近 
似 表示 的 64 位 整数 。 车 是 内 舱 文 档 只 有 一 个 键 的 话 ， 实 际 上 这 个 值 是 准确 的 。 


要 是 插入 的 64 位 整数 不 能 精确 地 作为 双 精 度数 显示 ，shell 会 添加 两 个 键 ，"top" 
和 "bottom"， 分别 表示 高 32 位 和 低 32 位 。 例 如 ， 如 果 揪 入 9 223 372 036 854 
775 807，shell 会 这 样 显示 : 





> db.nums .findOone() 


{ 
"_id" : ObjectId("4cObeecfd096a2580fe6fa09"), 
"myInteger" : { 
"floatApprox" : 9223372036854776000， 
"top" : 2147483647， 
"bottom" : 4294967295 


} 
"floatApprox" 是 一 种 特殊 的 内 租 文 档 ， 可 以 作为 值 和 文档 来 操作 : 


> doc.myInteger + 1 
4 


> doc.myInteger.floatApprox 
3 


32 位 的 整数 都 能 用 64 位 的 浮 点 数 精确 表示 ， 所 以 显示 起 来 没什么 特别 的 。 


2.6.3 日 期 


在 JavaScript 中 ，Date 对 象 用 做 MongoDB 的 日 ee 创建 一 个 新 的 Date 对 象 
时 ， 通 常会 调用 new Date (…) 而 不 只 是 Date (…)。 调 用 构造 函数 (也 就 是 说 不 
包括 new) 实际 上 会 返回 对 日 期 的 字符 串 表 示 ， i Date 对 象 。 这 不 是 
MongoDB 的 特性 ， 而 是 JavaScript 本 身 的 特性 。 要 是 不 小 心 忘 了 使 用 Date 构造 函 

















译注 1: 显然 不 是 在 shell 中 保存 的 。 
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数 ， 最 后 就 会 导致 日 期 和 字符 串 混 请。 字符 串 和 日 期 不 能 互相 匹配 ， 所 以 这 会 给 删 
除 、 更 新 、 查 询 等 很 多 操作 带 来 问题 。 


关于 JavaScript 中 Date 类 的 详细 说 明和 可 接受 的 构造 国 数 的 格式 ， 请 参见 ECMA- 
Script 规范 15.9 节 (可 在 http://www.ecmascript.org 下 载 ) 。 

shell 中 的 日 期 显示 时 使 用 本 地 时 区 设置 。 但 是 ， 日 期 在 数据 中 是 以 从 标准 纪元 开 
始 的 毫秒 数 的 形式 存储 的 ， 没 有 与 之 相关 的 时 区 信息 (当然 可 以 把 时 区 信息 作为 其 
他 键 的 值 存 储 ) 。 








2.6.4 数组 
数组 是 一 组 值 ， 既 可 以 作为 有 序 对 象 ( 像 列 表 、 栈 或 队列 ) 来 操作 ， 也 可 以 作为 无 
序 对 象 ( 像 集 合 ) 操作 。 


在 下 面 的 文档 中 ，"things" 这 个 键 的 值 就 是 一 个 数组 : 
{"thingar < [pie", 3,14]} 


从 这 个 例子 可 以 看 到 ， 数 组 可 以 包含 不 同 数 据 类 型 的 元 素 (这 个 例子 中 是 一 个 字符 
串 和 一 个 浮 点 数 ) 。 实 际 上 ， 常 规 键 / 值 对 支持 的 值 都 可 以 作为 数组 的 元 素 ， 甚 至 是 
套 租 数组 。 


文档 中 的 数组 有 个 奇妙 的 特性 ， 就 是 MongoDB 能 “理解 ”其 结构 ， 并 知道 如 何 
“深入 ”数组 内 部 对 其 内 容 进 行 操作 。 这 样 就 能 用 内 容 对 数组 进行 查询 和 构建 索引 
了 。 例 如 ， 之 前 的 例子 中 ，MongoDB 可 以 查询 所 有 "things" 数组 中 含有 3.14 的 
文档 。 要 是 经 常 使 用 这 个 查询 ， 可 以 对 "things" 创建 索引 ， 来 提高 性 能 。 


MongoDB 可 以 使 用 原子 更 新 修改 数组 中 的 内 容 ， 比 如 深入 数组 内 部 将 pie 改 为 pi。 
在 本 书后 面 还 会 介绍 更 多 这 种 操作 的 例子 。 








2.6.5 ”内 赔 文 档 
内 瞬 文 档 就 是 把 整个 MongoDB 文档 作为 另 一 个 文档 中 键 的 一 个 值 。 这 样 数据 可 以 
组 织 得 更 自然 些 ， 不 用 非得 存 成 扁平 结构 的 。 


例如 ， 用 一 个 文档 来 表示 一 个 人 ， 同 时 还 要 保存 他 的 地 址 ， 可 以 将 地 址 内 岁 到 
"address" 文档 中 : 





{ 


"name" : "John Doe", 
"address" : { 
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"street" : "123 Park Street", 
"city" : "Anytown", 
"state" : "NY" 


} 


上 面 例子 中 "address" 的 值 是 另 一 个 文档 ， 这 个 文档 有 自己 的 "street"、 
"city" 和 "state" 键 值 。 








同 数组 一 样 ，MongoDB 能 够 “理解 ”内 髓 文档 的 结构 ， 并 能 “ 深 入 ”其 中 构建 索 
引 、 执 行 查 询 ， 或 者 更 新 。 


我 们 会 在 后 面 深入 讨论 模式 设计 ， 但 就 算是 从 这 个 简单 的 例子 也 可 以 看 出 内 艇 文档 
可 以 改变 处 理 数据 的 方式 。 在 关系 型 数据 库 中 ， 之 前 的 文档 一 般 会 被 拆 分 成 两 个 表 
(“people” 和 “address”) 中 的 两 个 行 。 在 MongoDB 中 ， 就 可 以 将 地 址 文档 直接 甘 入 
人 员 文档 中 。 使 用 得 当 的 话 ， 内 垦 文 档 会 使 信息 表示 得 更 加 自然 (通常 也 会 更 高 效 )。 


这 样 做 也 有 坏处 ， 因 为 MongoDB 会 储存 更 多 重复 的 数据 ， 这 样 是 反 规 范 化 的 。 如 
果 在 关系 数据 库 中 “address” 在 一 个 独立 的 表 中 ， 要 修复 地 址 中 的 拼写 错误 。 当 我 
们 对 “people” 和 “address” 执 行 连接 操作 时 ， 每 一 个 使 用 这 个 地 址 的 人 的 信息 都 
会 得 到 更 新 。 但 是 在 MongoDB 中 ， 则 需要 在 每 个 人 的 文档 中 修正 拼写 错误 。 























2.6.6 _id 和 Objectld 

MongoDB 中 存储 的 文档 必须 有 一 个 " ia" 键 。 这 个 键 的 值 可 以 是 任何 类 型 的 ， 默 
认 是 个 objectId 对 象 。 在 一 个 集合 里 面 ， 每 个 文档 都 有 唯一 的 "_ ia" 值 ， 来 确保 
集合 里 面 每 个 文档 都 能 被 唯一 标识 。 如 果 有 两 个 集合 的 话 ， 两 个 集合 可 以 都 有 一 个 
值 为 123 的 " id" 键 ， 但 是 每 个 集合 里 面 只 能 有 一 个 " id" 是 123 的 文档 。 











1. Objectld 

objectId 是 " ia" 的 默认 类 型 。 它 设计 成 轻 量 型 的 ， 不 同 的 机 器 都 能 用 全 局 唯一 
的 同 种 方法 方便 地 生成 它 。 这 是 MongoDB 采用 objectId， 而 不 是 其 他 比较 常规 
的 做 法 (比如 自动 增加 的 主键 ) 的 主要 原因 ， 因 为 在 多 个 服务 器 上 同步 自动 增加 主 
键 值 既 费力 还 费时 。MongoDB 从 一 开始 就 设计 用 来 作为 分 布 式 数据 库 ， 处 理 多 个 
节点 是 一 个 核心 要 求 。 后 面 会 看 到 objectId 类 型 在 分 片 环境 中 要 容易 生成 得 多 。 


objectId 使 用 12 字 节 的 存储 空间 ， 每 个 字 节 两 位 十 六 进 制 数字 ， 是 一 个 24 位 的 
字符 串 。 由 于 看 起 来 很 长 ， 不 少 人 会 觉得 难以 处 理 。 但 关键 是 要 知道 这 个 长 长 的 
ObjectId 是 实际 存储 数据 的 两 倍 长 。 


如 果 快 速 连续 创建 多 个 objectId， 会 发 现 每 次 只 有 最 后 几 位 数字 有 变化 。 另 外 ， 











中 间 的 几 位 数字 也 会 变化 (要 是 在 创建 的 过 程 中 停顿 几 秒 钟 )。 这 是 objectiIa 的 创 
建 方式 导致 的 。12 字 节 按照 如 下 方式 生成 ; 


o0|1|2|13|14|5|e|7|8|9|10|11 
时 间 发 机 器 PID | 计数 器 


前 4 个 字 节 是 从 标准 纪元 开始 的 时 间 戳 ， 单 位 为 秒 。 这 会 带 来 一 些 有 用 的 属性 。 


。 时 间 惟 ， 与 随后 的 5 个 字 节 组 合 起 来 ， 提 供 了 秒 级 别 的 唯一 性 。 

。 由 于 时 间 惟 在 前 ， 这 意味 着 objectIg 大 致 会 按照 插入 的 顺序 排列 。 这 对 于 某 些 
方面 很 有 用 ， 如 将 其 作为 索引 提高 效率 ， 但 是 这 个 是 没有 保证 的 ， 仅 仅 是 “大 致 ”。 

。 这 4 个 字 节 也 隐 舍 了 文档 创建 的 时 间 。 绝 大 多 数 驱 动 都 会 公开 一 个 方法 从 
ObjectIgd 获取 这 个 信息 。 


因为 使 用 的 是 当前 时 间 ， 很 多 用 户 担心 要 对 服务 器 进行 时 间 同 步 。 其 实 没 有 这 个 必 
要 ， 因 为 时 间 惟 的 实际 值 并 不 重要 ， 只 要 其 总 是 不 停 增加 就 好 了 (每 秒 一 次 )。 


接 下 来 的 3 字 市 是 所 在 主机 的 唯一 标识 符 。 通 常 是 机 器 主机 名 的 散 列 值 。 这 样 就 可 
以 确保 不 同 主机 生成 不 同 的 objectId， 不 产生 冲突 。 


为 了 确保 在 同一 台 机 器 上 并 发 的 多 个 进程 产生 的 opjectId 是 唯一 的 ， 接 下 来 的 两 
字 节 来 自 产 生 obpjectId 的 进程 标识 符 (PID)。 


前 9 字 节 保证 了 同一 秒 钟 不 同 机 器 不 同 进程 产生 的 objectIa 是 唯一 的 。 后 3 字 市 
就 是 一 个 自动 增加 的 计数 器 ， 确 保 相同 进 程 同一 秒 产生 的 objectId 也 是 不 一 样 的 。 
同一 秒 钟 最 多 允许 每 个 进程 拥有 256”(16 777 216) 个 不 同 的 objectIa。 


2. 自动 生成 _id 
前 面 讲 到 ， 如 果 插 入 文档 的 时 候 没 有 "ia" 键 ， 系 统 会 自动 帮 你 创建 一 个 。 可 以 由 
MongoDB 服务 器 来 做 这 件 事情 ， 但 通常 会 在 客户 端 由 驱动 程序 完成 。 理 由 如 下 。 


。 虽然 opjectId 设计 成 轻 量 型 的 ， 易 于 生成 ， 但 是 毕竟 生成 的 时 候 还 是 产生 开销 。 
在 客户 端 生 成 体现 了 MongoDB 的 设计 理念 : 能 从 服务 器 端 转 移 到 驱动 程序 来 做 的 
事 ,就 尽量 转移 。 这 种 理念 背后 的 原因 是 ,即便 是 像 MongoDB 这 样 的 可 扩展 数据 库 ， 
扩展 应 用 层 也 要 比 扩展 数据 库 层 容易 得 多 。 将 事务 交 由 客户 端 来 处 理 ， 就 减轻 了 数 
据 库 扩展 的 负担 。 


。 在 客户 端 生成 opjectId， 了 驱动 程序 能 够 提供 更 加 丰富 的 API。 例 如 ， 驱 动 程序 可 
以 有 自己 的 insert 方法 , 可 以 返回 生成 的 opjectIqd, 也 可 以 直接 将 其 插入 文档 。 
如 果 驱 动 程序 允许 服务 器 生成 objectId， 那 么 将 需要 单独 的 查询 ， 以 确定 插入 
的 文档 中 的 "id" 值 。 
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第 3 章 


创建 、 更 新 及 删除 文 树 





本 章 会 介绍 基本 的 数据 库 移 入 /移出 数据 的 操作 ， 有 具体 包含 如 下 操作 。 











3.1 插入 并 保存 文档 
插入 是 向 MongoDB 中 添加 数据 的 基本 方法 。 对 目标 集 使 用 insert 方法 ， 插 入 一 个 文档 


> db.foo.insert ({"bar" : "baz"}) 


这 个 操作 会 给 文档 增加 一 个 " id" 键 (要 是 原来 没有 的 话 )， 然 后 将 其 保存 到 MongoDB 中 。 





3.1.1 批量 插入 


如 果 要 插入 多 个 文档 ， 使 用 批量 插入 会 快 一 些 。 批 量 插 入 能 传递 一 个 由 文档 构成 的 
数组 给 数据 库 。 


一 次 发 送 数 十 、 数 百 乃 至 数 千 个 文档 会 明显 提高 插入 的 速度 。 一 次 批量 插入 只 是 单 
个 的 TCP 请 求 ， 也 就 是 说 避免 了 许多 零碎 的 请 求 所 带 来 的 开销 。 由 于 无 需 处 理 大 量 
的 消息 头 ， 这 样 能 够 减少 插入 时 间 。 要 知道 当 单个 文档 发 送 至 数据 库 时 ,会 有 一 个 
头 部 信息 ， 告 诉 数据 库 对 指定 的 集合 做 插入 操作 。 用 批量 插入 的 话 ， 数 据 库 就 不 用 
一 遍 又 一 遍地 处 理 每 一 个 文档 的 这 种 信息 了 。 
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批量 插入 用 于 应 用 程序 中 ， 比 如 一 次 插入 数 百 个 传感器 采样 点 到 分 析 集 合 。 只 有 插 
入 多 个 文档 到 一 个 集合 的 时 候 ， 这 种 方式 才 会 有 用 ， 而 不 能 用 批量 插入 一 次 对 多 个 
集合 执行 操作 。 要 是 只 是 导入 原始 数据 (例如 ， 从 数据 feed 或 者 MySQL 中 导入 )， 
可 以 使 用 命令 行 工 具 ， 如 mongoimport， 而 不 是 使 用 批量 插入 。 另 一 方面 ， 可 以 用 
它 在 存 人 MongoDB 之 前 对 数据 做 一 些小 的 修整 (转换 日 期 成 为 日 期 类 型 ， 或 添加 
自 定义 的 "_iq")， 所 以 批量 插入 对 导入 数据 来 说 也 是 有 用 的 。 


当前 版 本 的 MongoDB 消息 长 度 最 大 是 16 MB， 所 以 使 用 批量 插入 时 还 是 有 限制 的 。 


3.1.2 插入 : 原理 和 作用 


当 执行 播 入 的 时 候 ， 使 用 的 驱动 程序 会 将 数据 转换 成 BSON 的 形式 ， 然 后 将 其 送 入 
数据 库 (关于 BSON， 详 见 附录 C)。 数 据 库 解析 BSON， 检 验 是 否 包 含 "_ia" 键 
并 且 文 档 不 超过 4 MB ， 除 此 之 外 ， 不 做 别 的 数据 验证 ， 就 只 是 简单 地 将 文档 原样 
存 人 数据库 中 。 这 会 带 来 些 或 好 或 坏 的 影响 ， 最 明显 的 副作用 就 是 允许 插入 无 效 的 
数据 ， 而 从 好 处 看 ， 它 能 让 数据 库 更 加 安全 ， 远 离 注入 式 攻 击 。 


所 有 主流 语言 (也 包括 绝 大 部 分 非 主流 语言 ) 的 驱动 会 在 传送 数据 之 前 进行 一 些 数据 
的 有 效 性 检查 (文档 是 否 超 长 ， 是 否 包含 非 UTF-8 字符 ， 或 者 使 用 了 未 知 类 型 )。 要 是 
对 使 用 的 驱动 拿捏 不 准 ， 可 以 在 启动 数据 库 服务 器 的 时 候 使 用 - -objcheck 选项 ， 这 
样 服务 器 就 会 在 插入 之 前 先 检查 文档 结构 的 有 效 性 (当然 这 么 做 要 牺牲 些 性 能 )。 

















大 于 4 MB (转换 成 BSON) 的 文档 是 不 能 存 入 数据 库 的 。 这 算是 有 点 随 
意 挑 选 的 大 小 〈 可 能 以 后 会 增加 )。 主 要 是 避免 不 良 的 模式 设计 ， 保 证 稳定 
的 性 能 。 要 查看 doc 文档 转 为 BSON 的 大 小 〈 以 字 节 为 单位 )， 在 shell 中 


运行 object .bsonsize (doc) 即 可 。 























4 MB 究竟 是 个 多 大 空间 昵 ， 要 知道 整 部 《战争 与 和 平 ) 


2 


也 才 3.14 MB 。 


MongoDB 在 插入 时 并 不 执行 代码 ， 所 以 这 块 没 有 注入 式 攻击 的 可 能 。 传 统 的 注入 
式 攻击 对 MongoDB 来 说 是 无 效 的 ， 类 似 的 注入 式 型 攻击 一 般 来 说 也 是 非常 容易 对 
抗 的， 何况 插入 对 这 种 攻击 天 生 免 疫 。 


3.2 删除 文档 


现在 数据 库 中 有 些 数据 ， 要 删除 它 : 


> db.users.remove() 








译注 1: MongoDB 1.8 支 持 16 MB 。 
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ID 
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上 述 命令 会 删除 users 集合 中 所 有 的 文档 。 但 不 会 删除 集合 本 身 ， 原 有 的 索引 也 会 保留 。 


remove 国 数 可 以 接受 一 个 查询 文档 作为 可 选 参数 。 给 定 这 个 参数 以 后 ， 只 有 符合 条 件 的 
文档 才 被 删除 。 例 如 ， 假 设 要 删除 mailing.1list 集合 中 所 有 "opt-out" 为 true 的 人 : 





> db.mailing.list.remove({"opt-out" : true}) 
删除 数据 是 永久 性 的 ， 不 能 撤销 ， 也 不 能 恢复 。 
删除 速度 
删除 文档 通常 会 很 快 ， 但 是 要 清除 整个 集合 ， 直 接 删 除 集合 (然后 重建 索引 ) 会 更 快 。 
例如 ， 在 Python 中 ， 使 用 如 下 方法 插入 一 百 万 个 虚拟 元 素 ; 


for i in range(1000000): 
collection.insert ({"foo": "bar", "baz": 1，"z": 10 - i}) 


现在 把 刚 插入 的 文档 都 删除 ， 并 记录 花费 的 时 间 。 首 先 来 看 一 个 简单 的 删除 (remove) : 


import time 





from pymongo import Connection 


db = Connection().foo 
collection = db.bar 


start = time.time() 


collection.remove() 
collection.find one() 


total = time.time() - start 
print "%d seconds" % total 


在 MacBook Air 笔记 本 电脑 上 ， 这 有 段 脚本 输出 “46.08 seconds”(46.08 秒 )。 


如 果 用 db.drop_collection ("bar") 来 代替 remove 和 find one， 只 花 了 .01 
秒 ! 速度 提升 相当 明显 ， 但 也 是 有 代价 的 : 不 能 有 任何 限制 条 件 。 整 个 集合 都 被 删 
除了 ， 所 有 的 索引 也 都 不 见 了 。 


3.3 ”更 新 文档 


文档 存 入 数据 库 以 后 ， 就 可 以 使 用 update 方法 来 修改 它 。update 有 两 个 参数 ， 一 
个 是 查询 文档 ， 用 来 找 出 要 更 新 的 文档 ， 另 一 个 是 修改 器 (modifier) 文档 ， 描 述 对 
找到 的 文档 做 哪些 更 改 。 
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更 新 操作 是 原子 的 : 若是 两 个 更 新 闻 时 发 生 ， 先 到 达 服 务 器 的 先 执行 ， 接 着 执行 另外 一 个 。 
所 以 ， 互相 有 冲突 的 更 新 可 以 火速 传递 ， 并 不 会 相互 干扰 : 最 后 的 更 新 会 取得 “胜利 ”。 


3.3.1 文档 替换 
更 新 最 简单 的 情形 就 是 完全 用 一 个 新 文档 替代 匹配 的 文档 。 这 适用 于 模式 结构 发 生 
了 较 大 变化 的 时 候 。 例 如 ， 要 对 下 面 的 用 户 文档 做 一 个 比较 大 的 调整 : 

{ 





"_id" : ObjectId("4b2b9f67alf631733d917a7a")， 
name™ : VO 

nfriends™ ; 32, 

"enemies" : 2 


} 
想 变 成 下 面 的 样子 : 
{ 


"a" : ObjectId("4b2b9f67alf631733d917a7a")， 
"username" : "joe", 
"relationships" : 


rfriends" : 32, 
"enemies" : 2 


} 
可 以 用 update 来 替换 文档 : 


> var joe = db.users.findone({"'name" : "joe"}); 

> joe.relationships = {"friends" : joe.friends,"enemies" : joe.enemies}; 
"friends" : 32, 
"enemies" : 2 


} 


> joe.username = joe.name; 

"joe" 

> delete joe.friends; 

true 

> delete joe.enemies; 

he 

> delete joe.name; 

UE 

> db.users.update({"name" : "joe"}, joe); 


现在 ， 用 findone 查看 更 新 后 的 文档 结构 。 


常见 错误 就 是 查询 条 件 匹 配 了 多 个 文档 ， 然 后 更 新 的 时 候 由 于 第 二 个 参数 的 存在 就 
产生 重复 的 "_ia" 值 。 数 据 库 会 报错 ， 不 做 任何 修改 。 








译注 1: 除了 shell 外 、 一 般 程 序 是 不 会 报错 的 ， 除 非 用 getLastError。 
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例如 ， 有 好 几 个 文档 都 有 相同 的 "name"， 但 是 我 们 没有 意识 到 ; 


> db.people.find() 

{Tan : ObjectId("4b2b9f67alf631733d917a7b"), "name" : "joe", "age" : 65}, 
{™ Ta" : ObjectId("4b2b9f67alf631733d917a7c"), "name" : "joe", "age" 0; 
{en : ObjectId("4b2b9f67alf631733d917a7d"), "name" : "joe", "age" : 49}, 





现在 如 果 第 二 个 Joe 过 生日 ， 要 增加 "age" 的 值 ， 可 能 会 这 么 做 : 





> joe = db.people.findone({"name" : "joe", "age" : 20}); 
{ 
" lid : Objectid("4b2b9f67alf631733d917a76") 1 
"name™ : jo 
可 本 
} 
> joe.aget+; 
> db.people.update({"name" : "joe"}, joe); 


E11001 duplicate key on update 


到 底 怎么 了 呢 ?” 当 调用 update 时 ， 数 据 库 会 查找 一 个 与 {"name" : "joe"} 匹配 
的 文档 。 找 到 的 第 一 个 就 是 那个 65 岁 的 Joe。 然 后 数据 库 试 着 用 变量 joe 中 的 内 容 
蔡 换 找到 的 文档 ， 但 是 会 发 现 集合 里 面 已 经 有 一 个 具有 同样 "ia" 的 文档 。 所 以 ， 
更 新 就 会 失败 ， 因 为 "ig" 值 必须 唯一 。 为 了 避免 这 种 情况 ， 最 好 确保 更 新 总 是 指 
定 唯一 文档 ， 例 如 通过 像 "_ia" 这 样 的 键 来 匹配 。 


3.3.2 ”使 用 修改 器 

通常 文档 只 会 有 一 部 分 要 更 新 。 利 用 原子 的 更 新 修改 器 ， 可 以 使 得 这 种 部 分 更 新 极 
为 高 效 。 更 新 修改 器 是 种 特殊 的 键 ， 用 来 指定 复杂 的 更 新 操作 ， 比 如 调整 、 增 加 或 
者 删除 键 ， 还 可 能 是 操作 数组 或 者 内 磐 文档 。 

假设 要 在 一 个 集合 中 放置 网 站 的 分 析 数 据 ， 每 当 有 人 访问 页 面 的 时 候 ， 就 要 增加 计 
数 器 。 可 以 使 用 更 新 修改 器 原子 性 地 完成 这 个 增加 。 每 个 URL 及 对 应 的 访问 次 数 都 
以 如 下 的 方式 存储 在 文档 中 : 























A GE : ObjectId("4b253b067525f35f94b60a31") ， 
"url" : "www.example.com", 
"pageviews" : 52 


每 次 有 人 访问 页 面 ， 就 通过 URL 找到 该 页 面 ， 并 用 "$inc" 修改 器 增加 "pageviews" 
的 值 。 


> db.analytics.update({"url" : "www.example.com"}, 
. {"$inc" : {"pageviews" : 1}}) 
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接着 ,执行 一 个 find 操作 ， 会 发 现 "pageviews" 的 值 增加 了 1。 


> qb.analytics.find() 


{ 


ee a : ObjectId("4b253b067525f35f94b60a31")， 

"url™"™ : "www.example.com", 

"pageviews" : 53 
} 
oP Perl 和 PHP 程序 员 可 能 会 想 : 要 是 用 别 的 字母 而 不 是 $， 就 更 好 了 。 在 这 两 种 
4a、 语言 里 $ 表示 变量 前 级 ， 在 双 3 引 号 中 的 以 $ 开头 的 字符 串 都 会 被 替换 成 变量 的 


MY 





外， 值 。 然 而 ，MongoDB 一 开始 设计 成 JavaScript 数据 库 ，8$ 在 JavaScript 中 并 没 什 
么 特殊 含义 ， 所 以 就 这 么 用 了 。 这 的 确 是 一 个 MongoDB 的 历史 遗留 问题 。 











Perl 和 PHP 程序 员 还 是 有 些 选 择 的 。 首 先 ， 可 以 转 义 $: "\$foo"。 也 可 使 用 
单 引号 '$ftoo'， 就 不 会 有 变量 解释 了 。 最 后 ， 这 两 种 语言 的 驱动 程序 都 可 以 
不 使 用 s， 而 用 自己 的 定义 。 在 Perl 中 ,设置 SMongoDB : :BSON: :char， 在 
PHP 中 设置 php.ini 文件 的 mongo .cma_char， 可 以 用 =、:、?， 或 者 任何 你 觉 
得 可 以 替代 $ 的 字符 都 可 以 。 比 如 ， 你 选 了 ~ ， 就 可 以 用 ~ inc 当做 \$inc， 
把 ~ gt 当做 \Sgt。 











尽量 不 要 选择 会 出 现在 键 名 中 的 字符 (_ 或 者 x)， 也 不 要 使 用 自身 会 转 义 
的 字符 ， 这 只 会 徒 增 烦恼 (比如 \ 或 者 Perl 中 的 @)。 





使 用 修改 器 时 ，"_ia" 的 值 不 能 改变 。( 注 意 ， 整 个 文档 替换 时 是 可 以 改变 "_iay 
的 。) 其 他 键 值 ， 包 括 其 他 唯一 索引 的 键 ， 都 是 可 以 更 改 的 。 


1. "$set" 修 改 器 入 门 
"sset" 用 来 指定 一 个 键 的 值 。 如 果 这 个 键 不 存在 ， 则 创建 它 。 这 对 更 新 模式 或 者 
增加 用 户 定 义 键 来 说 非常 方便 。 例 如 ， 用 户 资料 存储 在 下 面 这 样 的 文档 里 : 





> db.users.findone() 


{ 


i Re lu) : ObjectId("4b253b067525f35f94b60a31")， 
name" : "JOe™. 

Te 

vgex. made; 

"location" : "Wisconsin" 


} 
非常 简要 的 一 段 用 户 信息 。 要 想 添 加 喜欢 的 书籍 进去 ， 可 以 使 用 "$set": 


> db.users.update({" id" : ObjectId("4b253b067525f35f94b60a31")}, 
. {"$set" : {"favorite book" : "war and peace"}}) 





A 


28 | 第 3 章 


之 后 文档 就 有 了 “favorite book” 键 。 





> db.users.findone() 


"_id" : ObjectId("4b253b067525f35f94b60a31") ， 
"name™ : joe 

A 

Sex 3 Vmale"; 

"LOCACIONnY ;3 WWLISCONSLNY, 

"favorite book" : "war and Peacen" 








要 是 用 户 觉得 喜欢 的 其 实 是 另外 一 本 书 ，"$set" 又 能 帮 上 人 忙 了 : 


> db.users.update({"name" : "joe"}, 
{"$set" : {"favorite book" : "green eggs and ham"}}) 


用 "$set" 甚至 可 以 修改 键 的 数据 类 型 。 例 如 ， 如 果 用 户 又 觉得 喜欢 的 是 一 堆 书 ， 
就 可 以 将 “favorite book” 键 的 值 变 成 一 个 数组 : 


> db.users.update({"name" : "joe"}, 
{"$set" : {"favorite book" 
["cat's cradle", "foundation trilogy", "ender's game"] }}) 


如 果 用 户 突 然 发 现 自己 不 爱 读书 ， 可 以 用 "$sunset" 将 键 完全 删除 : 


> db.users.update({"name" : "joe"}, 
{"$Sunset" : {"favorite book" : 1}}) 


现在 这 个 文档 就 和 例子 开始 的 时 候 一 样 了 。 
也 可 以 用 "$set" 修改 内 租 文 档 : 


> db.blog.posts.findOone() 








{ 
"_id" : ObjectId("4b253b067525f35f94b60a31") ， 
"title" : "A Blog Post", 
人 
"author" : { 
"name™ : "joe" 
"email" : "joe@example.com" 
} 
} 
> db.blog.posts.update({"author.name" : "joe"}, {"$set" : {"author. 
name" : "joe schmoe"}}) 
> db.blog.posts.findOone() 
{ 
"_id" : ObjectId("4b253b067525f35f94b60a31") ， 
"title" : "A Blog Post", 
下 
"author" : { 
"name" : "joe schmoe", 
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"email" : "joe@example.com" 
} 
增加 、 修 改 或 删除 键 的 时 候 ， 应 该 使 用 $ 修改 器 。 要 把 "foo" 的 值 设 为 "par"， 常 
见 的 错误 做 法 如 下 : 
> db.coll.update (criteria, {"foo" : "bar"}) 


这 会 事与愿违 。 实 际 上 这 会 将 整个 文档 用 {"foo" :"bar"} 替换 掉 。 一 定 要 使 用 以 
$ 开头 的 修改 器 来 修改 键 / 值 对 。 








2. 增加 和 减少 

"$inc" 修改 器 用 来 增加 已 有 键 的 值 ， 或 者 在 键 不 存在 时 创建 一 个 键 。 对 于 分 析 数 
据 、 因 果 关 系 、 投 票 或 者 其 他 有 变化 数值 的 地 方 ， 使 用 这 个 都 会 非常 方便 。 

假如 建立 了 一 个 游戏 集合 ， 将 游戏 和 变化 的 分 数 都 存储 在 里 面 。 比 如 用 户 玩 弹 球 游 
戏 (pinball)， 可 以 插入 一 个 包含 游戏 名 和 玩家 的 文档 来 标识 不 同 的 游戏 : 








> db.games.insert({"game" : "pinball", "user" : "joe"}) 





要 是 小 球 撞 到 了 砖 块 ， 就 会 给 玩家 加 分 。 分 数 可 以 随便 给 ， 这 里 就 把 玩家 得 分 基数 
约定 成 50 好 了 。 使 用 "sinc" 修改 器 给 玩家 加 50 分: 


> db.games.update({"game" : "pinball", "user" : "joe"}, 
» ("Sinev 2: "secorer 3 50}}) 


更 新 后 ， 可 以 看 到 : 


> db.games .findOone() 


{ 


"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"game" : "pinball", 

name™ : "joe" 

下 全 


} 
分 数 键 (score) 原来 并 不 存在 ， 所 以 "$inc" 创建 了 这 个 键 ， 并 把 值 设 定 成 增加 量 : 50。 
如 果 小 球 落 入 加 分 区 ， 要 加 10 000 分 。 只 要 给 "sincn 传递 一 个 不 同 的 值 就 好 了 : 





> db.games.update({"game" : "pinball", "user" : "joe"}, 
. {"$inc" : {"score" : 10000}} 
现在 来 看 看 结果 : 
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> dqb.games.find() 


{ 


"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"game" : "pinball", 

name™ : "joe" 

SCOTT ss 10050 


} 
"score" 键 存在 并 有 数字 类 型 的 值 ， 所 以 服务 器 就 把 这 个 值 加 了 10 000。 
"$inc" 与 "$set" 的 用 法 类 似 ， 就 是 专门 来 增加 (和 减少 ) 数字 的 。"sinc" 只 能 用 于 


整数 、 长 整数 或 双 精 度 浮 点 数 。 要 是 用 在 其 他 类 型 的 数据 上 就 会 导致 操作 失败 。 其 中 包 
括 很 多 语言 会 自动 转换 成 数字 的 类 型 ， 例 如 nul1、 布 尔 类 型 或 数字 构成 的 字符 串 。 





> db.fo0o.insert ({"count” : "wli"}) 
> db.foo.update({}, {$inc : {count : 1}}) 
Cannot apply $inc modifier to non-number 


另外 ，"s$inc" 键 的 值 必 须 为 数字 。 不 能 使 用 字符 串 、 数 组 或 其 他 非 数 字 的 值 。 否 则 就 
会 提示 “Modifier "$inc" allowed for numbers only” (修改 器 "sinc" 只 允许 使 用 数字 ) 
这 样 的 错误 。 要 修改 其 他 类 型 ， 应 该 使 用 "$set" 或 者 一 会 儿 要 讲 到 的 数组 修改 器 。 





3. 数组 修改 器 
有 一 类 很 好 的 修改 器 可 用 于 操作 数组 。 数 组 是 常用 且 非 常 有 用 的 数据 结构 : 它们 不 
仅 是 可 通过 索引 进行 引用 的 列表 ， 而 且 还 可 以 作为 集合 来 用 。 


数组 操作 ， 顾 名 思 义 ， 只 能 用 在 值 为 数组 的 键 上 。 例 如 不 能 对 整数 做 push， 也 不 能 
对 字符 串 做 pop。 使 用 "sset" 或 "$inc" 来 修改 标量 值 。 


如 果 指 定 的 键 已 经 存在 ，"$push" 会 向 已 有 的 数组 末尾 加 入 一 个 元 素 ， 要 是 没有 
就 会 创建 一 个 新 的 数组 。 例 如 ， 假 设 要 存储 博客 文章 ， 要 添加 一 个 包含 一 个 数组 的 
"comments" (评论 ) 键 。 可 以 向 还 不 存在 的 "comments" 数组 push 一 个 评论 ， 这 
个 数组 会 被 自动 创建 ， 并 加 入 评论 : 




















> db.blog.posts.findone() 


{ 
到 ian : ObjectId("4b2d75476cc613d5ee930164")， 
title Ty- MA blog BOSE", 
veontent ys 3 1 Ee 
> db.blog.posts.update({"title" : "A blog post"}, {S$push : {"comments" 
{"name" : "joe", "email" : "joe@example.com", "content" : "nice 
post ."}})) 
> db.blog.posts.findone() 
{ 
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id" 
titlen "A DLLog post"., 

Voomntent DY 3 有 
"comments" [ 
: name" 
"email" 


"joe", 


Teoontenb" 


} 
要 是 还 想 添 加 一 条 评论 ， 可 以 接着 使 用 


> db.blog.posts.update({"title" 

{ "name" "pob", " email" 
post ."}})}) 

> db.blog.posts.findOone() 

l 
Ul id" 
"title" "A blog post", 
oontentn. ys Wn 
"comments" [ 


{ 


"bob@example.com", 


ObjectId("4b2d75476cc613d5ee930164")， 


"joe@example.com", 
"nice post." 


"$spush": 


"A blog post"}, {$push : 
eontent™ 


ObjectId("4b2d75476cc613d5ee930164")， 


"name" "joe", 
"email" "joe@example.com", 
"content" "nice post." 

上 

' "name" hoy 
"email" "bob@example.com", 
"oontent" "good post." 


} 


{"comments": 
"good 


经 常会 有 这 种 情况 ， 如 果 一 个 值 不 在 数组 里 面 就 把 它 加 进去 。 可 以 在 查询 文档 中 用 
"$ne" 来 实现 。 例 如 ， 要 是 作者 不 在 引文 列表 中 就 添加 进去 ， 可 以 这 么 做 : 





> db.papers.update({"authors citedn 


{$Spush : {"authors cited" 


也 可 以 用 "$adqdToSet" 完成 同样 的 事 
时 候 更 适合 用 "$addToSet"。 





{ nm sne T 
"Richie"}}) 


， 要 知道 有 些 情况 "$ne" 根本 行 不 


"Richie"}}, 


例如 ， 有 一 个 表示 用 户 的 文档 ,已 经 有 了 电子 邮件 地 址 信息 : 





> db.users.findone ({"_ id" 


{ 


: 菠 
过， 


I 民 





有 











2 


ObjectId("4b2d75476cc613dq5ee930164") } ) 





i Be lid ObjectId("4b2d75476cc613d5ee930164")， 
"username" Wa lle = 
"emails" : [ 
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"joe@example.com", 
"joe@gmail.com", 
"joe@yahoo.com" 


当 添 加 新 的 地 址 时 ， 用 "$addToSet" 可 以 避免 重复 : 


> db.users.update({" id" : ObjectId("4b2d75476cc613d5ee930164")},， 
{"$addToSet" : {"emails" : "joe@gmail.com"}}) 
> db.users.findone({" id" : ObjectIid("4b2d75476cc613d5ee930164")}) 
{ 
"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"username" : "joe", 
"emails" : [ 


"joe@example.com", 
"joe@gmail.com", 
"joe@yahoo .com", 


} 
> db.users.update({" id" : ObjectId("4b2d75476cc613d5ee930164")}, 
{"$addToSet" : {"emails" : "joe@hotmail.com"}}) 
> db.users.findone({" id" : ObjectId("4b2d75476cc613d5ee930164")}) 
{ 
"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"username" : "joe", 
tamatlt Ls S| 
"joe@example.com", 
"joe@gmail.com", 
"joe@yahoo .com", 
"joe@hotmail.com" 
] 
} 


将 "$addToset" 和 "$each" 组 合 起 来 ， 可 以 添加 多 个 不 同 的 值 ， 而 用 "$ne" 和 
"spush" 组 合 就 不 能 实现 。 例 如 ， 想 一 次 添加 多 个 邮件 地 址 ， 就 可 以 使 用 这 些 修改 器 : 


> db.users.update({" id" : ObjectId("4b2d75476cc613d5ee930164")}, 
{"$addToSet" 
{"emails" : {"$each" : ["joe@php.net", "joe@example.com", "joe@ 
python.org"] }}}) 
> db.users.findone({"_ id" : ObjectId("4b2d75476cc613d5ee930164")}) 
{ 
"_id" : ObjectId("4b2d75476cc613d5ee930164")， 
"username" : "joe", 
"emails" : [ 


"joe@example.com", 
"joe@gmail.com", 
"joe@yahoo .com", 
"joe@hotmail.com" 
"joe@php.net" 
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"joe@python.org" 
} 


有 几 个 从 数组 中 删除 元 素 的 方法 。 若 是 把 数组 看 成 队列 或 者 栈 ， 可 以 用 "$pop"， 
这 个 修改 器 可 以 从 数组 任何 一 端 删除 元 素 。{s$popb : {key : 1}} 从 数组 末尾 删除 
一 个 元 素 ，{$pop : {key : -1})} 则 从 头 部 删除 。 


有 时 需要 基于 特定 条 件 来 删除 元 素 ， 而 不 仅仅 是 依据 位 置 ，"$pul1" 可 以 做 到 。 例 
如 ， 有 个 待 完成 事项 列表 ， 顺 序 有 些 问 题 : 





> db.lists.insert({"todo" : ["dishes", "laundry", "dry cleaning"] } ) 
要 是 想 把 洗衣 服 (laundry) 放 到 第 一 位 ， 可 以 从 列表 中 先 删 掉 : 

> db.lists.update({}, {"s$pull" : {"todo" : "laundry"}}) 
通过 查找 ， 会 看 到 只 有 两 个 元 素 了 : 


> db.lists.finad'() 


{ 


i ts A : ObjectId("4b2d75476cc613d5ee930164")， 
EGGY 二 
"dishes", 


"dry cleaning" 
} 


"$pull" 会 将 所 有 匹配 的 部 分 删 掉 。 对 数组 [1, 1, 2, 1] 执行 pull 1， 得 到 结果 就 是 
只 有 一 个 元 素 的 数组 [2]。 


4. 数组 的 定位 修改 器 
若是 数组 有 多 个 值 ， 而 我 们 只 想 对 其 中 的 一 部 分 进行 操作 ， 这 就 需要 一 些 技巧 。 有 
两 种 方法 操作 数组 中 的 值 : 通过 位 置 或 者 定位 操作 符 ("$s")。 


数组 都 是 以 0 开头 的 ， 可 以 将 下 标 直 接 作为 键 来 选择 元 素 。 例 如 ， 这 里 有 个 文档 ， 
其 中 包含 由 内 髓 文档 组 成 的 数组 ， 比 如 包含 评论 的 博客 文章 。 

















> db.blog.posts.findOone() 


{ 


es A : ObjectId("4b329a216cc613dq5ee930192") ， 
oontenteT 3 Togevy 
"comments" : [ 

"comment" : "good post", 

rauthor™ + WIohn", 

和 





"comment" : "i thought it was too short", 


nauthorn :; "Claire", 
1 1 | 

"comment" : "free watches", 
nauthor™ : "Alice", 
人 


} 
如 果 想 增加 第 一 个 评论 的 投票 数量 ， 可 以 这 么 做 : 

> db.blog.update({"post" : post id}, 

... {"$inc" : {"comments.0.votes" : 1}}) 
但 是 很 多 情况 下 ， 不 预先 查询 文档 就 不 能 知道 要 修改 数组 的 下 标 。 为 了 克服 这 个 困 
难 ，MongoDB 提供 了 定位 操作 符 "$"， 用 来 定位 查询 文档 已 经 匹配 的 元 素 ， 并 进行 
更 新 。 例 如 ， 要 是 用 户 John 把 名 字 改 成 jim， 就 可 以 用 定位 符 替换 评论 中 的 名 字 : 





db.blog.update({"comments.author" : "John"}, 
a Noe "comments.s$.author" : "Jim" 
$ $ h i ) 


定位 符 只 更 新 第 一 个 匹配 的 元 素 。 所 以 ， 如 果 John 有 不 止 一 个 评论 ， 那 么 只 有 他 的 
第 一 条 评论 中 的 名 字 会 被 更 改 。 


5. 修改 器 速度 

有 的 修改 器 运行 比较 快 。$inc 能 就 地 修改 ， 因 为 不 需要 改变 文档 的 大 小 ， 只 需要 将 
键 的 值 修改 一 下 ， 所 以 非常 快 。 而 数组 修改 器 可 能 更 改 了 文档 的 大 小 ， 就 会 慢 一 些 
("$set" 能 在 文档 大 小 不 发 生变 化 时 立即 修改 ， 否 则 性 能 也 会 有 所 下 降 ) 。 


MongoDB 预 留 了 些 补 白 给 文档 ， 来 适应 大 小 变化 (事实 上 ， 系 统 会 根据 文档 通常 
的 大 小 变化 情况 来 相应 地 调整 补 白 的 大 小 )， 但 是 要 是 超出 了 原来 的 空间 ， 最 后 还 是 
要 分 配 一 块 新 的 空间 。 空 间 分 配 除 了 会 减 慢 速度 ， 同 时 会 随 着 数组 变 长 ，MongoDB 
需要 更 长 的 时 间 来 遍历 整个 数组 ， 对 每 个 数组 的 修改 也 会 慢 下 来 。 


用 个 简单 Python 程序 就 能 验证 速度 的 差异 。 这 个 程序 插入 一 个 键 ， 并 增加 甚 值 100 000 次 。 





from pymongo import Connection 
import time 


db = Connection() .performance test 
db drop collection("updates") 
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collection = db.updates 
collection.insert ({"x": 1}) 


# make sure the insert is complete before we start timing 
collection.find one () 


start = time.time() 


for i in range(100000): 
collection.update({}, {"$inc" : {"x" : 1}}) 


# make sure the updates are complete before we stop timing 
collection.. find one(} 


print time.time() - start 


在 一 台 MacBook Air 上 , 一 共 花 了 7.33 秒 。 每 秒 有 13 000 多 次 更 新 (对 于 一 台 虚 
弱 的 小 机 器 来 说 已 经 相当 不 错 了 )。 现 在 看 看 push 100 000 次 的 话 ， 会 有 什么 效果 : 





for i in range(100000): 
collection.update({}, {'$push' : {'x' : 1}}) 





程序 花 了 67.58 秒 ， 也 就 是 说 每 秒 更 新 不 到 1500 次 。 


"$push" 或 者 其 他 数组 修改 器 是 推荐 使 用 的 ， 有 些 场合 还 是 十 分 必要 的 ， 但 是 一 定 
留心 这 种 更 新 的 利 次 。 要 是 "$push" 成 为 上 瓶颈， 可 以 将 内 矢 数组 独立 出 来 ， 放 到 
单独 一 个 集合 里 面 。 


3.3.3 Upsert 


upsert 是 一 种 特殊 的 更 新 。 要 是 没有 文档 符合 更 新 条 件 ， 就 会 以 这 个 条 件 和 更 新 
文档 为 基础 创建 一 个 新 的 文档 。 如 果 找 到 了 匹配 的 文档 ， 则 正常 更 新 。upsert 非 
党 方便 ， 不 必 预 置 集合 ， 同 一 套 代码 可 以 既 创 建 又 更 新 文档 。 


让 我 们 回 过 头 看 看 那个 记录 网 站 页 面 访问 次 数 的 例子 。 要 是 没有 upsert， 就 得 试 
着 查询 URL， 没 有 找到 就 得 新 建 一 个 文档 ， 找 到 的 话 就 增加 访问 次 数 。 要 是 把 这 个 
写成 JavaScript 程序 (而 不 是 用 mongo scriptname.js 来 运行 的 一 系列 shell 命令 )， 
会 是 如 下 这 样 的 : 











// check if we have an entry for this page 
blog = db.analytics.findone({url : "/blog"}) 


// if we do, add one to the number of views and save 
if (blog) { 

blog.pageviews++; 

db.analytics.save (blog); 





A 
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} 


// otherwise, create a new document for this page 
else { 
db.analytics.save({url : "/blog", pageviews : 1}) 


} 
这 就 是 说 如 果 有 人 访问 页 面 ， 我 们 得 去 数据 库 打 个 来 回 ， 然 后 选择 更 新 或 者 插入 。 要 
是 多 个 进程 同时 运行 这 段 代 码 ， 还 得 考虑 对 于 给 定 URL 不 能 同时 插入 文档 的 限制 。 
要 是 使 用 upsert， 既 可 以 避免 竞 态 问题 ， 又 可 以 缩减 代码 量 (update 的 第 3 个 参 
数 表示 这 是 个 upsert): 

db.analytics.update({"url" : "/blog"}, {"$inc" : {"visits" : 1}}, true) 
这 行 代码 和 之 前 的 代码 作用 完全 一 样 ， 但 它 更 高 效 ， 并 且 是 原子 性 的 ! 创建 新 文档 
会 将 条 件 文档 作为 基础 ， 然 后 将 修改 器 文档 应 用 于 其 上 。 例 如 ， 要 是 执行 一 个 匹配 
键 并 增加 对 应 键 值 的 upsert 操作 ， 会 在 匹配 的 基础 上 进行 增加 : 








> db.math.remove() 
> db.math.update({"count" : 25}, {"$inc" : {"count" : 3}}, true) 
> db.math.findone() 
{ 
"_id" : ObjectId("4b3295f26cc613d5ee93018f"),， 
"eount™" 3 28 


} 








先是 remove 清空 了 集合 ， 里 面 就 没有 文档 了 。upsert 创建 一 个 键 "count" 的 值 
为 25 的 文档 ， 随 后 将 这 个 值 加 3， 最 后 得 到 "count" 为 28 的 文档 。 要 是 不 开启 
upsert 选项 ，{"count" : 25}) 不 会 匹配 到 任何 文档 ， 也 就 没有 任何 更 改 。 








要 是 将 这 个 upsert (条 件 为 {count :25}) 再 次 运行 ， 还 会 创建 一 个 新 文档 。 这 是 
因为 没有 文档 满足 匹配 条 件 (唯一 的 文档 的 "count" 的 值 是 28)。 








save Shell 帮助 程序 

save 是 一 个 shell 函数 ， 可 以 在 文档 不 存在 时 插入 ， 存 在 时 更 新 。 它 只 有 一 个 参数 : 
文档 。 要 是 这 个 文档 含有 "_ ia" 键 ，save 会 调用 upsert。 否 则 ,会 调用 插入 。 程 
序 员 可 以 非常 方便 地 使 用 这 个 函数 在 shell 中 快速 修改 文档 。 








> Var x = db.foo.findone() 
> Xx.num = 42 
42 


> db.foo.save (x) 





要 是 不 用 save， 最 后 一 行 可 以 像 下 面 这 样 写 ,但 很 喝 嗪 : 
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db.foo.update({" idq" : x. id}, x). 


3.3.4 更 新 多 个 文档 
默认 情况 下 ， 更 新 只 能 对 符合 匹配 条 件 的 第 一 个 文档 执行 操作 。 要 是 有 多 个 文档 符 
合 条 件 ， 其 余 的 文档 就 没有 变化 。 要 使 所 有 匹配 到 的 文档 都 得 到 更 新 ， 可 以 设置 
update 的 第 4 个 参数 为 true。 

















了 今后 可 能 会 更 改 upaate 的 行为 (服务 器 可 能 默认 会 更 新 所 有 匹配 的 文档 ， 
4、| 。 只 有 第 4 个 参数 为 fal se 才 会 只 更 新 一 个 )， 所 以 建议 每 次 都 显 式 表明 要 
心 4 不 要 做 多 文档 更 新 。 








这 样 不 但 更 明确 地 指定 了 update 的 行为 ， 还 可 以 在 默认 参数 发 生变 化 时 
从 容 应 对 。 





多 文档 更 新 对 模式 迁移 非常 有 用 ， 还 可 以 在 对 特定 用 户 发 布 新 功能 的 时 候 使 用 。 例 
如 ， 假 设 要 给 所 有 在 特定 日 期 过 生日 的 用 户 一 份 礼物 ， 就 可 以 使 用 多 文档 更 新 ， 将 
"gift" 增加 到 他 们 的 账号 。 





> db.users.update({birthday : "10/13/1978"} 
. {$set : {gift : "Happy Birthday!"}}, false, true) 


这 样 就 给 生日 为 1978 年 10 月 13 日 的 所 有 用 户 文档 添加 了 "gift" 键 。 


想 要 知道 多 文档 更 新 到 底 更 新 了 多 少 文档 ， 可 以 运行 getLastError 命令 (或 许 叫 
做 "getLastOpStatus" 更 为 合适 ) 。 键 "rn" 的 值 就 是 要 的 数字 。 


> db.count.update({x : 1}, {$inc : {x : 1}}, false, true) 


> db.runCommand ({getLastError : 1}) 
l 

Ter ,Ml 

"updatedExisting" : true, 

nnn : 5 

"oky * tue 


} 


这 里 mn" 为 5, 说 明 有 5 个 文档 被 更 新 了 。"updatedExisting" 为 true,， 说明 是 
对 已 有 的 文档 进行 更 新 。 关 于 数据 库 命令 及 其 作用 的 更 多 细节 ， 可 以 参考 第 7 章 





3.3.5 返回 已 更 新 的 文档 
用 getLastError 仅 能 获得 有 限 的 信息 ， 并 不 能 返回 已 更 新 的 文档 。 这 个 可 以 通过 
findAndModify 命令 来 做 到 。 
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findAndModify 的 调用 方式 和 普通 的 更 新 略 有 不 同 ， 还 有 点 慢 ， 这 是 因为 它 要 等 
待 数 据 库 的 响应 。 这 对 于 操作 查询 以 及 执行 其 他 需要 取 值 和 赋值 风格 的 原子 性 操作 
来 说 是 十 分 方便 的 。 





ED 





假设 我 们 有 一 个 集合 ， 其 中 包含 以 一 定 顺序 运行 的 进程 。 其 中 每 个 进程 都 被 表示 为 
具有 如 下 形式 的 文档 : 


{ 
" Td” :Objectid(); 
"status" : State;, 
这 二 GN 

} 


"status" 是 一 个 字符 串 ， 可 以 是 "READY"、"RUNNING" 或 "DONE"。 要 找到 状态 为 
"READY" 的 具有 最 高 优先 级 的 任务 ， 运 行进 程 国 数 ， 然 后 更 新 其 状态 为 "DONE "。 
将 已 经 就 绪 的 进程 按照 优先 级 排序 ， 然 后 将 优先 级 最 高 的 进程 的 状态 更 新 为 
"RUNNING" 。 完 成 了 以 后 ， 就 把 状态 改 为 "DONE"。 就 像 下 面 这 样 : 





ps = db.processes.find({"status" : "READY") .sort({"priority" : -1}). 
limit (1) .next () 

db.processes.update({" id" : ps. id},{"$set" : {"status" : "RUNNING"}} 

do_ something (ps); 

db.processes.update({" id" : ps. id},{"$set" : {"status" : "DONE"}}) 


个 算法 有 问题 ， 可 能 会 导致 竞 态 条 件 。 假 设 有 两 个 线程 正在 运行 。A 线程 读 取 了 文 
人 B 线程 在 A 状态 改 为 "RUNNING" 之 前 也 读 取 了 同一 个 文档 ， 这 样 两 个 线程 会 运 
行 相同 的 处 理 过 程 。 虽 然 可 以 通过 检查 状态 的 方式 来 避免 这 一 问题 ,但 是 十 分 麻烦 : 








var cursor = db.processes.find({"status" : "READY"}).sort({"priority" : 
-1}) .limit (1); 
while ((ps = cursor.next()) != null) { 
ps.update({" id" : ps. _ id, "status" : "READY"}, 
{"$set" : {"status" : "RUNNING"}}); 
var lastOp = db.runCommand ({getlasterror : 1}); 
if. (LaBtOpsn ss 1). 4 
do_something (ps); 
db.processes.update({" id" :ps. id},{"$set" : {"status" : "DONE"}} 
break; 
} 
cursor = db.processes.find({"status" : "READY"}) .sort({"priority" : 


-1}) .limit (1); 


} 


这 样 也 有 问题 。 因 为 有 先 有 后 ， 很 可 能 一 个 线程 处 理 了 所 有 任务 ， 而 另外 一 个 就 傻 
傻 地 呆 在 那里 。A 线程 可 能 会 一 直 占 用 着 进程 ，B 线程 试 着 抢占 失败 后 ， 就 让 A 线 
程 自己 处 理 所 有 任务 了 。 这 种 情况 绝对 适合 用 findandModify。 这 样 就 可 以 在 一 
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个 操作 中 返回 结果 并 更 新 。 具 体 步 骤 如 下 : 


> ps = db.runCcommand({"findAndModqify" : "ptrocesses"， 
"query" : {"status" : "READY"}, 
vst % "priority : -1}, 
... "update" : {"$set" : {"status" : "RUNNING"}}) 
{ 
"ok" : 1, 
"value" : { 
"_id" : ObjectId("4b3e7a18005cab32be6291f7") ， 
"THEEOrLEY" HL, 
"status" : "READY" 
} 


注意 ， 返 回 文档 中 的 状态 仍然 为 "READY"。 先 返回 结果 然后 更 新 。 要 是 再 看 看 集 
合 ， 会 发 现 "status" 已 经 更 新 成 了 "RUNNING": 


> db.processes.findone({" id" : ps.value. id}) 

{ 
"_id" : ObjectId("4b3e7a18005cab32be6291f7")， 
"DELOLPLEYY SS Ls 
"status" : "RUNNING" 


} 
这 样 的 话 ， 程 序 就 变 成 了 下 面 这 样 : 


> ps = db.runCcommand({"findAndModqify" : "processes", 
"query" : {"status" : "READY"}, 
vse s (MeoEltyY x sa} 
"update" : {"$set" : {"status" : "RUNNING"}}) .value 
> do_something (ps) 
> db.process.update({" id" : ps. id}, {"$set" : {"status" : "DONE"}}) 


findAndModify 既 有 "update" 键 也 有 "remove" 键 。"remove" 键 表示 将 匹配 到 
的 文档 从 集合 里 面 删除 。 例 如 ， 现 在 不 要 更 新 状态 了 ， 而 是 直接 删 掉 ， 就 可 以 像 下 面 
这 样 : 





> ps = db.runCommand ({"findAndModify" : "processes"， 
"query" : {"status" : "READY"}, 
vaorer 3 ("Briority : =1}; 
"remove" : true) .Value 


> do_ something (ps) 
findAndModify 命令 中 每 个 键 对 应 的 值 如 下 所 示 。 
。 findAndModify 
字符 串 ， 集 合 名 。 
。 query 


查询 文档 ， 用 来 检索 文档 的 条 件 。 





ee sort 


排序 结果 的 条 件 。 
。 update 


修改 器 文档 ， 对 所 找到 的 文档 执行 的 更 新 。 
remove 


布尔 类 型 ,表示 是 否 删除 文档 。 


a new 


布尔 类 型 ,表示 返回 的 是 更 新 前 的 文档 还 是 更 新 后 的 文档 。 默 认 是 更 新 前 的 文档 。 


"update" 和 "remove" 必须 有 一 个 ， 也 只 能 有 一 个 。 要 是 匹配 不 到 文档 ， 这 个 命 
令 会 返回 一 个 错误 。 


这 个 命令 有 些 限制 。 它 一 次 只 能 处 理 一 个 文档 ， 也 不 能 执行 upsert 操作 ， 只 能 更 
新 已 有 文档 。 


相 比 普通 更 新 来 说 ，findandModify 速度 要 慢 一 些 。 话 虽 这 么 说 ， 它 也 不 会 太 慢 ， 
大 概 耗 时 相当 于 一 次 查找 、 一 次 更 新 和 一 次 getLastError 顺序 执行 所 需 的 时 间 。 


3.4 瞬间 完成 


本 章 所 讨论 的 3 个 操作 (插入 、 删 除 和 更 新 ) 都 是 瞬间 完成 的 ， 这 是 因为 它们 都 不 
需要 等 待 数据 库 响 应 。 这 并 不 是 异步 操作 ， 可 以 把 这 个 想象 成 发 出 后 就 不 再 操心 的 
动作 〈 后 面 简称 其 为 “ 离 弦 之 箭 ") ， 客 户 端 将 文档 发 送 给 服务 器 后 就 立刻 干 别 的 了 。 
客户 端 永远 不 会 收 到 “好 的 ， 知 道 了 ”或 者 “有 问题 ， 能 重新 传送 一 般 吗 ”这 类 响 
应 。 


这 个 特点 的 优点 很 明显 ， 速 度 快 ， 这 些 操作 都 会 非常 快 地 执行 ， 它 只 会 受 客 户 端 发 
送 的 速度 和 网 络 速度 的 制约 。 通 常会 工作 得 很 好 ， 但 有 时 也 会 出 岔 子 : 服务 器 崩溃 
了 ， 网 线 被 老鼠 咬 断 了 ， 数 据 中 心 被 洪水 效 了 。 在 没有 服务 器 的 情况 下 ， 客 户 端 还 
是 会 发 送 写 操作 到 服务 器 的 ， 完 全 不 理会 到 底 有 没有 服务 器 。 这 对 有 些 应 用 是 可 以 
接受 的 ， 由 于 硬件 故障 丢失 几 秒 钟 的 日 志 记录 、 用 户 点 击 或 者 分 析 数 据 没 什么 大 不 
了 的 。 但 是 对 于 另 一 些 应 用 (如 付费 系统 )， 这 样 就 不 好 玩 了 。 


3.4.1 安全 操作 
假设 要 完成 一 个 电子 商务 系统 。 如 果 某 人 i 订购 了 某 物 ， 应 用 程序 应 该 花 点 时 间 确 保 订 单 
顺利 。 这 就 是 为 什么 要 给 这 些 操作 弄 个 “安全 ”版 本 ， 执 行 时 检查 到 了 错误 还 可 以 重 来 。 
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2 MongoDB 的 开发 者 选择 了 不 安全 的 版 本 作为 默认 选择 ， 这 是 由 于 他 们 与 关系 
型 数据 库 打交道 的 经 验 所 导致 的 。 很 多 构建 在 关系 型 数据 库 之 上 的 应 用 程序 
必 人: 都 根本 不 关心 返回 的 代码 ， 也 不 会 检查 返回 码 ， 但 又 得 苦 苦 等 待 这 个 返回 码 ， 
” ”这 会 造成 性 能 的 极 大 下 降 。MongoDB 让 用 户 来 选择 。 这 样 ， 像 一 些 收集 日 志 

记录 或 者 实时 数据 分 析 的 程序 ， 就 不 用 等 待 它们 根本 不 在 乎 的 返回 码 了 。 


























安全 的 版 本 在 执行 完了 操作 后 立即 运行 getLastError 命令 ， 来 检查 是 否 执行 成 功 
( 详 见 7.1 节 有 关 命 令 的 更 多 信息 )。 驱 动 程序 会 等 竺 数据库 响 应 ， 然 后 适当 地 处 理 
错误 ， 一 般 会 抛 出 一 个 可 被 捕获 的 异常 。 这 样 ， 开 发 者 就 能 用 自己 的 语言 以 比较 自 
然 的 方式 捕获 并 处 理 数 据 库 错误 了。 要 是 操作 成 功 ，getLastError 会 给 出 额外 的 
信息 作为 响应 (例如 ， 对 于 更 新 或 删除 操作 ， 会 给 出 受到 影响 的 文档 数量 )。 


坷 aa， 























getLastError 在 增强 安全 性 方面 还 包括 查看 操作 是 否 成 功 地 被 复制 这 一 
4;， 功能 。 关 于 这 一 功能 的 细 习 ， 请 参见 9.4.4 市 。 




















AN 


“安全 ”的 代价 就 是 性 能 。 即 便 忽略 客户 端 处 理 异常 的 开销 (不 同 语言 的 开销 不 一 样 ， 
但 一 般 都 不 是 轻 量 级 的 )， 等 待 数 据 库 响应 本 身 的 时 间 比 只 发 送 消息 的 时 间 多 一 个 数 
量 级 。 所 以 ， 应 用 程序 需要 权衡 数据 的 重要 性 〈 以 及 丢失 后 的 后 果 ) 及 速度 需求 。 


拿 不 准时 ， 就 采用 安全 操作 。 要 是 速度 不 够 快 ， 就 让 一 些 不 太 重要 的 操作 
性 4、 变 成 离 弦 之 科 。 








具体 来 说 : 


。 如 果 不 考 虑 安全 性 的 话 ， 就 只 用 离 弦 之 箭 的 方式 ， 

。 想 要 活 得 稍 长 一 点 ， 就 把 重要 的 用 户 数据 帐号、 信用卡 号、 电子 邮件 ) 用 安全 的 
方式 操作 ， 其 余 的 数据 就 采用 离 纺 之 第 的 方式 ， 

。 如 果 你 很 谨慎 ， 只 用 安全 操作 好 了 。 不 过 要 是 应 用 程序 自动 生成 数 以 百 计 的 零散 
信息 例如， 页 面 、 用 户 或 广告 的 统计 信息 ) 需要 保存 ， 这 些 还 是 可 以 用 离 荡 之 
第 的 方式 对 待 。 


3.4.2 捕获 “常规 ”错误 
安全 操作 不 仅 能 对 付 前 面 那 种 世界 未 日 的 场景 ， 也 是 一 种 调试 数据 库 “ 奇 怪 ” 行 为 


的 好 方法 。 即 便 安 全 操作 最 后 会 在 生产 环境 中 移 除 ， 但 是 在 开发 过 程 中 还 是 应 该 大 
量 地 使 用 。 这 样 可 以 避免 很 多 常见 的 数据 库 使 用 错误 ， 最 常见 的 就 是 键 重复 的 错误 。 


键 重复 错误 经 常 发 生 在 试图 插入 一 个 其 "ia" 值 已 被 占用 的 文档 。MongoDB 中 不 
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允许 在 一 个 集合 里 面 有 多 个 "_ia" 值 一 样 的 文档 。 如 果 做 的 是 安全 插入 ， 发 生 了 键 
重复 错误 ， 安 全 检查 会 发 现 这 个 服务 器 错误 ， 并 抛 出 异常 。 在 不 安全 模式 下 ， 数 据 
库 没 有 了 响应， 所 以 可 能 根本 就 不 知道 插入 失败 了 。 


例如 ， 在 shell 中 ， 可 以 看 到 插入 "_iqa" 值 相 同 的 两 个 文档 是 行 不 通 的 : 





> 0D:,fo00.insert({" id™ : 123, "x™ »; 1}) 

> Db.f60. nsezt({™ Ld 人 T1237 We s 2}) 

E11000 duplicate key error index: test.foo.$ id dup key: { : 123.0 } 
这 时 查看 集合 ， 会 发 现 只 有 第 一 个 文档 成 功 插入 了 。 注 意 ， 这 种 错误 也 可 由 唯一 索引 
导致 ， 并 不 一 定 都 由 "_iq" 引发 。shell 总 会 检查 错误 ， 而 驱动 程序 中 检查 是 可 选项 。 


3.5 ”请 求 和 连接 


数据 库 会 为 每 一 个 MongoDB 数据 库 连 接 创建 一 个 队列 ， 存 放 这 个 连接 的 请 求 。 当 
客户 端 发 送 一 个 请 求 ， 会 被 放 到 队列 的 末尾 。 只 有 队列 中 的 请 求 都 执行 完毕 ， 后 续 
的 请 求 才 会 执行 。 所 以 从 单个 连接 就 可 以 了 解 整个 数据 库 ， 并 且 它 总 是 能 读 到 自己 
写 的 东西 。 


注意 ， 每 个 连接 都 有 独立 的 队列 ， 要 是 打开 两 个 shell， 就 有 两 个 数据 库 连 接 。 在 一 
个 shell 中 执行 插入 ， 之 后 在 另 一 个 shell 中 进行 查询 不 一 定 能 得 到 插入 的 文档 。 然 
而 ， 在 同一 个 shell 中 ， 插 入 后 再 进行 查询 是 一 定 能 查 到 的 。 手 动 复 现 这 个 行为 并 不 
容易 ， 但 是 在 繁忙 的 服务 器 上 ， 交 错 的 插入 / 查找 就 显得 稀 松 平常 了 。 当 开发 者 用 
一 个 线程 插入 数据 ， 用 另 一 个 线程 检查 是 否 成 功 插入 时 ， 就 会 经 常 遇 到 这 种 问题 。 
有 那么 一 两 秒 钟 时 间 ， 好 像 根 本 就 没 插 入 数据 ， 但 随后 数据 又 突然 冒 出 来 。 


使 用 Ruby、Python 和 Java 驱动 程序 时 要 特别 注意 这 种 行为 ， 因 为 这 几 个 语言 的 驱 
动 程序 都 使 用 了 连接 了 地。 为 了 提高 效率 ， 这 些 驱 动 程序 都 和 服务 器 建立 了 多 个 连 
接 (一 个 连接 池 )， 并 将 请 求 分 散 到 这 些 连接 中 去 。 好 在 它们 都 提供 一 些 机 制 来 确 
保 一 系列 的 请 求 都 由 一 个 连接 来 处 理 。MongoDB wiki (http://dochub.mongodb.org/ 
drivers/connections) 上 有 不 同 语言 连接 池 的 详细 信息 。 
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本 章 将 详细 介绍 查询 。 主 要 会 涵盖 以 下 儿 个 方面 。 


。 使 用 fina 或 者 findone 函数 和 查询 文档 对 数据 库 执行 查 询 。 

。 使 用 $ 条 件 查询 实现 范围 、 集 合 包含 、 不 等 式 和 其 他 查询 。 

。 有 些 查询 用 查询 文档 ， 甚 至 $ 条 件 语句 都 不 能 表达 。 对 于 这 种 复杂 的 查询 ， 可 以 
使 用 swhere 子 句 ， 用 强大 的 JavaScript 来 表达 。 

。 查询 将 会 返回 一 个 数据 库 游标 ,游标 只 有 在 你 需要 的 时 候 才 会 惰性 地 批量 返回 文档 。 

。 还 有 很 多 针对 游标 执行 的 元 操作 ， 包 括 忽略 一 定数 量 的 结果 ， 或 者 限定 返回 结果 的 
数量 ， 还 有 对 结果 排序 。 


4.1 find 简介 


MongoDB 中 使 用 fina 来 进行 查询 。 查 询 就 是 返回 一 个 集合 中 文档 的 子 集 ， 子 集合 
的 范围 从 0 个 文档 到 整个 集合 。fina 的 第 一 个 参数 决定 了 要 返回 哪些 文档 ， 其 形式 
也 是 一 个 文档 ， 说 明 要 执行 的 查询 细 市 。 






































空 的 查询 文档 {} 会 匹配 集合 的 全 部 内 容 。 要 是 不 指定 查询 文档 ， 默 认 就 是 {}。 
例如 : 

> Ghee-.find() 
将 返回 集合 c 中 的 所 有 内 容 。 
当 我 们 开始 向 查询 文档 中 添加 键 / 值 对 时 ， 就 意味 着 限定 了 查找 的 条 件 。 对 于 绝 大 多 
数 类 型 来 说 ， 这 种 方式 很 简单 明了 。 整 数 匹配 整数 ， 布 尔 类 型 匹配 布尔 类 型 ， 字 符 串 
匹配 字符 串 。 查 询 简单 的 类 型 ， 只 要 指定 想 要 查找 的 值 就 好 了 ， 十 分 简单 。 例 如 ， 想 
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要 查找 所 有 "age'" 的 值 为 27 的 文档 ， 直 接 将 这 样 的 键 / 值 对 写 进 查询 文档 就 好 了 : 


> db.users.find({"age" : 27}) 


要 是 想 匹 配 一 个 字符 串 ， 比 如 值 为 "joe" 的 "username" 键 ， 那么 直接 写 就 好 了 : 








> db.users.find({"username" : "joe"}) 


可 以 通过 向 查询 文档 加 入 多 个 键 / 值 对 的 方式 来 将 多 个 查询 条 件 组 合 在 一 起 ， 
解释 成 “条 件 1 AND 条 件 2 AND…AND 条 件 W 。 例 如 ， 要 想 查询 所 有 用 户 名 为 
“joe” 且 年 龄 为 27 岁 的 用 户 ， 可 以 像 下 面 这 样 : 








> db.users.find({"username" : "joe", "age" : 27)) 


4.1.1 指定 返回 的 键 

有 时 并 不 需要 将 文档 中 所 有 键 / 值 对 都 返回 。 遇 到 这 种 情况 ， 可 以 通过 find (或 者 
findone) 的 第 二 个 参数 来 指定 想 要 的 键 。 这 样 做 既 会 节省 传输 的 数据 量 ， 又 能 节 
省 客户 端 解 码 文档 的 时 间 和 内 存 消 耗 。 


例如 ， 如 果 只 对 用 户 集合 的 "username" 和 "email" 键 感 兴趣 ， 可 以 使 用 如 下 查 
询 返 回 这 些 键 : 





> db.users.find({}, {"username" : 1, "email" : 1}) 
{ 
"_id" : ObjectId("4ba0f0dqfdq22aa494fdq523620")， 
"username" : "joe", 
"email" : "joe@example.com" 


} 
可 以 看 到 ，"_ia" 这 个 键 总 是 被 返回 ， 即 便 是 没有 指定 也 一 样 。 


也 可 以 用 第 二 个 参数 来 剔除 查询 结果 中 的 某 个 键 / 值 对 。 例 如 ， 文 档 中 有 很 多 键 ， 
但 是 不 希望 结果 中 含有 "fatal weakness'" 键 : 





> db.users.find({}, {"fatal weakness" : 0}) 
也 可 以 用 来 防止 返回 "_iq": 


> db.users.find({}, {"username" : 1, " id" : 0}) 


{ 
} 


4.1.2 限制 
查询 使 用 上 还 是 有 些 限 制 的 。 数 据 库 所 关心 的 查询 文档 的 值 必须 是 常量 。( 在 你 自己 的 


"username" : "joe", 








代码 里 可 以 是 正常 的 变量 )。 也 就 是 不 能 引用 文档 中 其 他 键 的 值 。 例 如 ， 要 想 保 持 库 
存 ， 有 原 库存 "in_stock" 和 已 出 售 "num_sold" 两 个 键 ， 想 通过 比较 两 者 来 查询 : 

> db.stock.find({"in stock" : "this.num sold"}) // 不 可 行 
的 确 有 办 法 实现 类 似 的 操作 ( 详 见 4.4 节 )， 但 通常 可 以 略微 修改 一 下 文档 结构 ， 能 
通过 普通 查询 来 完成 操作 ， 这 样 性 能 也 会 有 所 改进 。 在 这 个 例子 中 ， 可 以 用 初始 存 
货 "initial_ stock" 和 存货 "in stock" 两 个 键 来 改写 文档 。 这 样 ， 每 当 有 人 购 
买 物品 ， 就 将 "in_stock" 减 去 1。 最 后 用 一 个 简单 的 查询 查看 哪 种 商品 已 脱销 : 


> db.stock.find({"in stock" : 0}) 


4.2 查询 条 件 


查询 不 仅 能 像 前 面 说 的 那样 精确 匹配 ， 还 能 匹配 更 加 复杂 的 条 件 ， 比 如 范围 、OR 
子 句 和 取 反 。 


4.2.1 查询 条 件 

"sit"、"$lte"、"$gt" 和 "sgte" 就 是 全 部 的 比较 操作 符 ， 分 别 对 应 <、<=、> 

和 >=。 可 以 将 其 组 合 起 来 以 便 查 找 一 个 范围 的 值 。 例 如 ， 查 询 在 18~30 岁 ( 含 ) 的 

用 户 ， 就 可 以 像 下 面 这 样 : 
> db.users.find({"age" : {"$gte" : 18, "$lte" : 30}}) 

这 样 的 范围 查询 对 日 期 尤为 有 用 。 例 如 ， 要 查找 在 2007 年 1 月 1 日 前 注册 的 人 ， 可 

以 像 下 面 这 样 : 


> start = new Date("01/01/2007") 
> db.users.find({"registered" : {"$1lt" : start}}) 


精确 匹配 日 期 是 徒劳 的 ， 因 为 日 期 只 精确 到 毫秒 。 通 常 只 是 想得到 关于 一 天 、 一 周 
或 者 是 一 个 月 的 数据 ， 这 样 范围 查询 就 很 有 必要 了 。 

对 于 文档 的 键 值 不 等 于 某 个 特定 值 的 情况 ， 就 要 使 用 另外 一 种 条 件 操作 符 "$ne" 了 ， 
它 表示 “不 相等 *。 阁 是 想 要 查询 所 有 名 字 不 为 “joe” 的 用 户 ， 可 以 像 下 面 这 样 查询 : 












































> db.users.find({"username" : {"$ne" : "joe"}}) 


"$ne" 能 用 于 所 有 类 型 的 数据 。 


4.2.2 ”OR 查询 
MongoDB 中 有 两 种 方式 进行 OR 查询 。"sin" 可 以 用 来 查询 一 个 键 的 多 个 值 。 





"$or" 更 通用 一 些 ， 用 来 完成 多 个 键 值 的 任意 给 定 值 。 

对 于 单一 键 要 是 有 多 个 值 与 其 匹配 的 话 ， 就 要 用 "$in" 加 一 个 条 件数 组 。 例 如 ， 抽 奖 

活动 的 中 奖 号 码 是 725、542 和 390。 要 找 出 全 部 这 些 中 奖 数据 ， 可 以 构建 如 下 查询 : 
> db.raffle.find({"ticket no" : {"$in" : [725, 542, 390] }}) 


"$in" 非常 灵活 ， 可 以 指定 不 同 的 类 型 的 条 件 和 值 。 例 如 ， 在 逐步 将 用 户 的 ID 号 
迁移 成 用 户 名 的 过 程 中 ， 要 做 兼顾 二 者 的 查询 : 


> db.users.find({"user id" : {"$in" : [12345, "joe"]}}) 
这 会 匹配 "user_ig" 等 于 12345 的 文档 ， 也 会 匹配 "user_iq" 等 于 "joe" 的 文档 。 


要 是 "sin" 对 应 的 数组 只 有 一 个 值 ， 那 么 和 直接 匹配 这 个 值 效果 是 一 样 的 。 例 如 ， 
{ticket no : {$in : [725]}} 和 {ticket no : 725} 的 效果 一 样 。 

与 "$in" 相对 的 是 "snin"， 将 返回 与 数组 中 所 有 条 件 都 不 匹配 的 的 文档 。 要 是 想 
返回 所 有 没有 中 奖 的 人 ， 就 可 以 用 如 下 方法 进行 查询 : 





> db.raffle.find({"ticket no" : {"$nin" : [725, 542, 390] }}) 
查询 将 会 返回 没有 那些 号 码 的 人 。 


"$in" 能 对 单个 键 做 OR 查询 ， 但 要 是 想 找 到 "ticket _ no" 为 725 或 者 "winner" 为 
true 的 文档 该 怎么 办 呢 ? 对 于 这 种 情况 ， 应 该 使 用 "sor"。"gsor" 接受 一 个 包含 所 有 
可 能 条 件 的 数组 作为 参数 。 上 面 中 奖 的 例子 如 果 用 "$or" 改写 会 是 下 面 这 个 样子 的 : 


> db.raffle.find({"$or" : [{"ticket no" : 725}, {"winner" : true}]}) 





"$or" 可 以 含有 其 他 条 件 句 。 例 如 ， 如 果 想 要 将 "ticket no" 与 那 3 个 值 匹配 上 ， 
外 加 "winner" 键 ， 就 可 以 这 么 做 : 


> db.raffle.find({"$or" : [{"ticket no" ; {"$in" : [725, 542, 390]}}, 
{"winner" : true}]}) 


使 用 普通 的 AND 型 的 查询 时 ， 总 是 想 尽 可 能 地 用 最 少 的 条 件 来 限定 结果 的 范围 。 
OR 型 的 查询 正 相 反 : 第 一 个 条 件 尽 可 能 地 匹配 更 多 的 文档 ， 这 样 才 是 最 为 有 效 的 。 





4.2.3 S$not 
"$not" 是 元 条 件 句 ， 即 可 以 用 在 任何 其 他 条 件 之 上 。 例 如 ， 就 拿 取 模 运 算 符 "$mod" 来 





译注 1: 也 就 是 说 将 最 严 苛 的 条 件 放置 在 最 前 面 。 














说 。"$moa" 会 将 查询 的 值 除 以 第 一 个 给 定 值 ， 若 余数 等 于 第 二 个 给 定 值 则 返回 该 结果 : 


> db.users.find({"iqd num" : {"$mod" : [5, 1] }} 


上 面 的 查询 会 返回 via_numw 值 为 1、6、11、16 等 的 用 户 。 但 要 是 想 返 回 via 
num" 为 2、3、4、5、7、8、9、10、12 等 的 用 户 ， 就 要 用 "$not" 了 : 
> db.users.find({"iqd num" : {"$not" : {"$mod" : [5, 1]}}}) 


"$not" 与 正则 表达 式 联合 使 用 的 时 候 极 为 有 用 ， 用 来 查找 那些 与 特定 模式 不 符 的 
文档 (4.3.2 节 会 详细 介绍 其 用 法 ) 。 


4.2.4 条 件 句 的 规则 

如 果 比 较 一 下 上 一 章 的 更 新 修改 器 和 前 面 的 查询 文档 ， 会 发 现 以 $ 开头 的 键 处 在 不 
同 的 位 置 。 在 查询 中 ，"$1lt" 在 内 层 文 档 ， 而 更 新 中 "$inc" 则 是 外 层 文档 的 键 。 
基本 可 以 肯定 : 条 件 句 是 内 层 文 档 的 键 ， 而 修改 器 则 是 外 层 文档 的 键 。 

可 对 一 个 键 应 用 多 个 条 件 。 例 如 ， 要 查找 年 龄 为 20~30 的 所 有 用 户 ， 可 以 在 "age" 
键 上 使 用 "Sgt" 和 molt 























> db.users.find({"age" : {"$1lt" : 30, "$gt" : 20}}) 


一 个 键 可 以 有 多 个 条 件 ， 但 是 一 个 键 不 能 对 应 多 个 更 新 修改 器 。 例 如 ， 修 改 器 文档 
不 能 同时 含有 {"$inc" : {"age" : 1}，"$set" : {age : 40}}， 因 为 修改 
了 "age" 两 次 。 但 是 对 于 查询 条 件 句 就 没有 这 种 限定 。 


4.3 ”特定 于 类 型 的 查询 
如 第 2 章 所 述 ，MongoDB 的 文档 可 以 使 用 多 种 类 型 的 数据 。 其 中 有 一 些 在 查询 的 
时 候 会 有 特别 的 表现 。 











4.3.1 null 
null 就 有 点 奇怪 。 它 确实 能 匹配 自身 ， 所 以 要 是 有 一 个 包含 如 下 文档 的 集合 : 
> a Gfind() 
{ "_id" : ObjectId("4ba0f0dfdq22aa494fd523621")，"y" : null } 
{ "_id" : ObjectId("4ba0fodfd22aa494fd523622"), "y" : 1 } 
{ "_id" : ObjectId("4ba0f148d22aa494fd523623"), "y" : 2 } 


就 可 以 按照 预期 的 方式 查询 "y" 键 为 null 的 文档 : 
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> db.c.find({"y" : null}) 
{ "_id" : ObjectId("4ba0f0dfd22aa494fd523621" 


ny :nl 


但 是 ，nul1 不 仅仅 匹配 自身 ， 而 且 匹 配 “不 存在 的 "。 所 以 ， 这 种 匹配 还 会 返回 缺 
少 这 个 键 的 所 有 文档 : 


> db efind({"z" : null}) 

{ "_id" : ObjectId("4ba0f0dfd22aa494fd523621"), "y" null } 
{ "_id" : ObjectId("4ba0fodfd22aa494fd523622"), "yn" 1 } 

{ "_id" : ObjectId("4ba0f148d22aa494fd523623"), "yn" 2 } 


如 果 仅 仅 想 要 匹配 键 值 为 null 的 文档 ， 既 要 检查 该 键 的 值 是 否 为 null， 还 要 通过 
"$exists" 条 件 判定 键 值 已 经 已 存在 : 





5 db Gfind({(v er : {neiniv » [mull]y "Sexletev : trwe}}) 


不 幸 的 是 ， 没 有 "$eq" 操作 符 ， 所 以 看 上 去 有 些 费 解 ， 但 是 只 有 一 个 元 素 的 "$in" 
操作 符 效 果 是 一 样 的 。 


4.3.2 ”正则 表达 式 
正则 表达 式 能 够 灵活 有 效 地 匹配 字符 串 。 例 如 ， 想 要 查找 所 有 名 为 Joe 或 者 joe 的 
用 户 ， 就 可 以 使 用 正则 表达 式 执行 忽略 大 小 写 的 匹配 : 

> db.users.find({"name" : /joe/i}) 
系统 可 以 接受 正则 表达 式 标 识 (i)， 但 不 是 一 定 要 有 。 现 在 匹配 了 各 种 大 小 写 组 
合 形式 的 joe， 要 是 还 要 匹配 各 种 大 小 写 组 合 形式 的 joey， 就 可 以 略微 修改 一 下 正 
则 表达 式 : 

> db.users.find({"name" : /joey?/i}) 
MongoDB 使 用 Perl 兼容 的 正则 表达 式 (PCRE) 库 来 匹配 正则 表达 式 ，PCRE 支持 
的 正则 表达 式 语法 都 能 被 MongoDB 所 接受 。 建 议 在 查询 中 使 用 正则 表达 式 前 ， 先 
在 JavaScript shell 中 检查 一 下 语法 ， 确 保 匹 配 与 设想 的 一 致 。 








考 3 
”| 。 MongoDB 可 以 为 前 级 型 正则 表达 式 (比如 /^joey/) 查询 创建 索引 ， 所 
4 以 这 种 类 型 的 查询 会 非常 高 效 。 


正则 表达 式 也 可 以 匹配 自身 。 虽 然 几 乎 没有 人 直接 将 正则 表达 式 插 入 到 数据 库 中 ， 
但 要 是 万 一 这 么 做 了 ， 也 是 可 以 用 自身 匹配 的 : 


> db.foo.insert ({"bar" : /baz/}) 
> db.foo.find({"bar" : /baz/}) 





Tan : ObjectId("4b23c3ca7525f35f94b60a2d")， 
"bar™ : /baz/ 


4.3.3 查询 数组 


查询 数组 中 的 元 素 也 是 非常 容易 的 。 数 组 绝 大 多 数 情况 下 可 以 这 样 理解 : 每 一 个 元 
素 都 是 整个 键 的 值 。 例 如 ， 如 果 数 组 是 一 个 水 果 清 单 ， 比 如 下 面 这 样 : 








> db.food.insert ({"fruit'" : ["apple"，"banana"，"peach"] }) 
下 面 的 查询 : 
> db.food.find({"fruit" : "banana"}) 


会 成 功 匹 配 该 文档 。 这 个 查询 好 比 我 们 用 了 一 个 如 下 的 文档 (不 合法 的 ) 进行 的 查 
询 : {"fruit" : "apple",'"fruit" : "banana", "fruit" : "peach"}。 
1. $all 


如 果 需 要 通过 多 个 元 素来 匹配 数组 ， 就 要 用 "$all" 了 。 这 样 就 会 匹配 一 组 元 素 。 
例如 ， 假 设 创建 包含 3 个 元 素 的 如 下 集合 : 


> db.food.insert({" id" : 1, "fruit" : ["apple", "banana", "peach"]}) 
> db.food.insert({" id" : 2, "fruit" : ["apple", "kumquat", "orange"]}) 
> db.food.insert ({" id" : 3, "fruit" : ["cherry", "banana", "apple"]}) 


要 找到 既 有 "apple" 又 有 "banana" 的 文档 ， 就 得 用 "$all" 来 查询 : 





> bfood, find(1fruit ; $sall : ["apple", "banana"] ) 
pp 
{™ 0" Ti "frait™ : [apple", "banana", "peach"]} 
{"_id" : 3, "fruit" : ["cherry", "banana", "apple"]} 


顺序 无 关 紧 要 。 注 意 ， 第 二 个 结果 中 "banana" 在 "apple" 之 前 。 要 是 对 只 有 一 个 元 素 
的 数组 使 用 "sal1"， 就 和 不 用 "$all" 一 样 了 。 例 如 ，{fruit:{$all: ['apple']} 和 
{fruit:'apple'} 的 查询 效果 是 等 价 的 。 


也 可 以 使 用 完整 的 数组 精确 匹配 。 但 是 ， 精 确 匹 配对 于 有 缺少 或 者 元 余 元 素 的 情况 
就 不 大 灵 了 。 例 如 ， 下 面 的 方法 会 匹配 之 前 的 第 一 个 文档 : 





> db.food.find({"fruit" : ["apple", "banana", "peach"]}) 
但 是 下 面 这 个 就 不 会 匹配 : 
> db.food.find({"fruit" : ["apple", "banana"]}) 





这 个 亦 不 会 匹配 : 
> db.food.find({"fruit" : ["banana", "apple", "peach"]}) 

要 是 想 查询 数组 指定 位 置 的 元 素 ， 则 需 使 用 key. index 语法 指定 下 标 ， 例 如 : 
> db.food.find({"fruit.2" : "peach"}) 


数组 下 标 都 是 从 0 开始 的 ， 所 以 上 面 的 表达 式 会 用 数组 的 第 3 个 元 素 和 "peach" 匹配 。 


2. $size 
"$size" 对 于 查询 数组 来 说 也 是 意义 非凡 ， 顾 名 思 义 ， 可 以 用 其 查询 指定 长 度 的 数 
组 。 见 下 面 的 例子 : 

5 db,.focod.find({"fruit"™ : ("Seize™ 3) 
一 种 常见 的 查询 需求 就 是 需要 一 个 长 度 范围 。"$size" 并 不 能 与 其 他 查询 子 句 组 合 
(比如 "$gt")， 但 是 这 种 查询 可 以 通过 在 文档 中 添加 一 个 "size" 键 的 方式 来 实现 。 
这 样 每 一 次 向 指定 数组 添加 元 素 的 上 时候， 同时 增加 "size" 的 值 。 原 来 这 样 的 更 新 : 





> db.food.update({"$push" : {"fruit" : "strawberry"}}) 
就 会 变 成 下 面 这 样 : 
> db.food.update({"$push" : {"fruit" : "strawberry"},"$inc" : {"size" : 1}}) 


增加 的 操作 非常 快 ， 所 以 对 性 能 的 影响 微乎其微 。 这 样 存储 文档 后 ， 就 可 以 像 下 面 
这 样 查询 了 : 


> db.food.find({"size" : {"$gt" : 3}}) 


不 幸 的 是 ， 这 种 技巧 并 不 能 与 "$addToset" 操作 符 同时 使 用 。 


3. $slice 操 作 符 
本 章 前 面 已 经 提 及 ，find 的 第 二 个 参数 是 可 选 的 ， 可 以 指定 返回 哪些 键 。 
"sslice" 返回 数组 的 一 个 子 集合 。 


例如 ， 假 设 现在 有 一 个 博客 文章 的 文档 ， 要 想 返 回 前 10 条 评论 ， 可 以 : 








> db.blog.posts.findOne (criteria, {"comments" : {"$slice" : 10}})) 
也 可 以 返回 后 10 条 评论 ， 只 要 用 -10 就 可 以 了 : 


> db.blog.posts.findOone (criteria, {"comments" : {"$slice" : -10}}) 





"$slice" 也 可 以 接受 偏 移 值 和 要 返回 的 元 素数 量 ， 来 返回 中 间 的 结果 : 


> db.blog.posts.findOone (criteria, {"comments" : {"$slice" : [23, 10]}} 





这 个 操作 会 跳 过 前 23 个 元 素 ， 返 回 第 24 个 ~ 第 33 个 元 素 。 如 果 数 组 不 够 33 个 元 
素 ， 则 返回 第 23 个 元 素 后 面 的 所 有 元 素 。 


除非 特别 声明 ， 否 则 使 用 "$slice" 时 将 返回 文档 中 的 所 有 键 。 别 的 键 说 明 符 都 是 默 
认 不 返回 未 提 及 的 键 ， 这 点 与 "$slice" 不 太一 样 。 例 如 ， 有 如 下 的 博客 文章 文档 : 





{ 
We : ObjectIid("4b2d75476cc613d5ee930164")， 
"title" : "A blog post", 
下 
"comments" : [ 
{ 
name" : Gen 
"email" : "joe@example.com", 
"content" : "nice post." 
二 
{ 
"name" 二 bob, 
"email" : "bob@example.com", 
neontent” : "gS60d post:" 
}s 
] 
} 
> 、 旦 、 a 
并 且 我 们 用 "$slice" 来 获取 最 后 一 条 评论 ， 可 以 这 样 : 
> db.blog.posts.findone (criteria, {"comments" : {"$slice" : -1}} 
{ 
Wi Ke : ObjectId("4b2d75476cc613d5ee930164")， 
"title" : "A blog post", 
eonmtentt cept 
"comments" : [ 
{ 
"name mh : "pob 是 . 
"email" : "bob@example.com", 
naonmntent, % "go60d "Bost.™ 
} 
] 
} 


"title" 和 "content" 都 被 返回 了 ， 即 便 是 并 没有 显 式 地 出 现在 键 说 明 符 中 。 


4.3.4 ”查询 内 肉 文 档 
有 两 种 方法 查询 内 髓 文档 查询 整个 文档 ,或 者 只 针对 其 键 / 值 对 进行 查询 。 














查询 整个 内 艇 文档 与 普通 查询 完全 相同 。 例 如 ， 有 如 下 文档 : 














查询 | 53 


"first™ ss "Joe™, 
"Last™ * Schmoe 
"agen 45 


要 查寻 姓名 为 Joe Schmoe 的 人 可 以 这 样 : 
> db.people.find({"name" : {"first" : "Joe", "last" : "Schmoe"}}) 

然而 ， 如 果 Joe 决定 添加 一 个 代表 中 间 名 的 键 ， 这 个 查询 就 不 好 用 了 ， 因 为 那样 
就 不 匹配 整个 内 租 文 档 了 。 这 种 查询 还 是 与 顺序 相关 的 ，{ "last" : "Schmoe"， 
下 于 二 下 冯 "Joe"} 就 什么 都 匹配 不 到 。 

如 果 允 许 的 话 ， 通 常 只 针对 内 舱 文 档 的 特定 键 值 进行 查询 才 是 比较 好 的 做 法 。 这 样 ， 
即便 数据 模式 改变 ， 也 不 会 导致 所 有 查询 因为 要 精确 匹配 而 一 下 子 都 挂 掉 。 我 们 可 
以 使 用 点 表示 法 查询 内 磐 的 键 : 


> db.people.find({"name.first" : "Joe'", "name.last" : "Schmoe"})) 





现在 ， 如果 Joe 增加 了 更 多 的 键 ， 这 个 查询 依然 会 匹配 他 的 姓 和 名 。 


这 种 点 表示 法 是 查询 文档 区 别 于 其 他 文档 的 主要 特点 。 查 询 文 档 可 以 包含 点 ， 来 表 
达 “ 深 入 内 内 文 档 内 部 ”的 意思 。 点 表示 法 也 是 待 插入 的 文档 不 能 包含 “.” 的 原 
因 。 将 键 作 为 URL 保存 的 时 候 经 常会 遇 到 此 类 问题 。 一 种 解决 方法 就 是 在 插入 前 或 
者 提取 后 执行 一 个 全 局 替换 ， 将 “.” 替 换 成 一 个 URL 中 的 非法 字符 。 

当 文 档 结构 变 得 更 加 复杂 以 后 ， 内 和 骸 文 档 的 匹配 需要 些许 技巧 。 例 如 ， 假 设 有 博客 
文章 若干 ， 要 找到 由 Joe 发 表 的 5 分 以 上 的 评论 。 博 客 文章 的 结构 如 下 例 所 示 : 


> db.blog.find!() 


{ 























可 全 辐 丰 二 让 路 必 中 二 

"comments" : [ 
author” "joe 
MGOre™ 35 
"oomment". ; "nice Post" 

}; 

nauthory * Vmary.; 
"score" : 6， 
"comment" : "terrible post" 


} 


不 能 直接 用 dpb.blog.find({"comments":{"author":"joe", "score":{"$gte":5}}})) 





来 查寻 。 内 和 骨 文 档 匹 配 要求 整 个 文档 完全 匹配 ， 而 这 不 会 匹配 "comment" 键 。 使 
用 db.blog.find({"comments.author" : "joe", "comments.score" 

{"sgte" : 5})})) 同样 也 不 会 达到 目的 。 因 为 符合 author 条 件 的 评论 和 符合 score 
条 件 的 评论 可 能 不 是 同一 条 评论 。 也 就 是 说 ， 会 返回 刚才 显示 的 那个 文档 。 因 为 
"author" : "joe" 在 第 一 条 评论 中 匹配 了 ，"score" : 6 在 第 二 条 评论 中 匹配 了 。 








要 正确 地 指定 一 组 条 件 ， 而 不 用 指定 每 个 键 ， 要 使 用 "$elemMatch"。 这 种 模糊 的 
命名 条 件 句 能 用 来 部 分 指定 匹配 数组 中 的 单个 内 眶 文档 的 限定 条 件 。 所 以 正确 的 写 
法 应 该 是 这 样 的 : 


> db.blog.find({"comments" : {"$elemMatch" : {"author" : "joe", 
ngaore.. x ("Sgter :. 5}}}}) 


"$elemMatch" 将 限定 条 件 进行 分 组 ， 仪 当 需 要 对 一 个 内 咀 文 档 的 多 个 键 操作 时 才 会 
用 到 。 


4.4 S$where 查 询 


键 / 值 对 是 很 有 表现 力 的 查询 方式 ， 但 是 依然 有 些 需求 它 无 法 表达 。 当 其 他 方法 都 
败 下 阵 的 时 候 ， 就 轮 到 "$where" 子 句 了 ， 用 它 可 以 执行 任意 JavaScript 作为 查询 
的 一 部 分 。 这 就 使 得 查询 能 做 ( 儿 乎 ) 任何 事情 。 


最 典型 的 应 用 就 是 比较 文档 中 的 两 个 键 的 值 是 否 相等 。 例 如 ， 有 个 条 目 列表 ， 如 果 
其 中 的 两 个 值 相 等 则 返回 文档 。 请 看 如 下 示例 : 








> db.foo.insert({"apple" : 1, "banana" : 6, "peach" : 3}) 
> db.foo.insert({"apple" : 8, "spinach" : 4, "watermelon" : 4}) 


第 二 个 文档 中 ，"spinach" 和 "watermelon" 的 值 相 同 ， 所 以 需要 返回 该 文档 。 
MongoDB 似乎 永远 不 会 提供 一 个 $ 条 件 符 来 做 这 个 ， 所 以 只 能 用 "$where" 子 句 
借助 JavaScript 来 完成 了 : 


> db.foo.find({"$where" : function () { 
. for (var current in this) { 
for (var other in this) { 
if (current != other && this[current] == this [other]) { 
return true; 
} 


ee } 
四 
. return false; 


i 





如 果 国 数 返 回 true， 文 档 就 做 为 结果 的 一 部 分 被 返回 ， 如果 为 false， 则 不 然 。 





前 面 用 的 是 一 个 函数 ， 也 可 以 用 一 个 字符 串 来 指定 "$where" 查询 。 下 面 两 种 表达 


是 完全 等 价 的 : 
> db.foo.find({"$where" : "this.x + this.y == 10"}) 
> db.foo.find({"$where" : "function() { return this.x + this.y == 10; }"}) 


不 是 非常 必要 时 ， 一定 要 避免 使 用 "$where" 查询 ， 因 为 它们 在 速度 上 要 比 常规 查询 
慢 很 多 。 每 个 文档 都 要 从 BSON 转换 成 JavaScript 对 象 ， 然 后 通过 "$swhere" 的 表达 
式 来 运行 。 同 样 还 不 能 利用 索引 。 所 以 ， 只 在 走投无路 时 才 考 虑 "$where" 这 种 用 
法 。 将 常规 查询 作为 前 置 过 滤 ， 与 "$swhere" 组 合 使 用 可 以 不 牺牲 性 能 。 如 果 可 能 的 
话 ， 用 索引 根据 非 "$where" 子 句 进行 过 滤 ，"$where" 只 用 于 对 结果 进行 调 优 。 


另 一 种 复杂 查询 的 方式 是 利用 MapReduce， 下 一 章 会 进行 介绍 。 


4.5 游标 

数据 库 使 用 游标 来 返回 fina 的 执行 结果 。 客 户 端 对 游标 的 实现 通常 能 够 对 最 终结 
果 进 行 有 效 的 控制 。 可 以 限制 结果 的 数量 ， 略 过 部 分 结果 ， 根 据 任 意 方向 任意 键 的 
组 合 对 结果 进行 各 种 排序 ， 或 者 是 执行 其 他 一 些 功能 强大 的 操作 。 


要 想 从 shell 中 创建 一 个 游标 ， 首 先 要 对 集合 填充 一 些 文档 ， 然 后 对 其 执行 查询 ， 并 
将 结果 分 配给 一 个 局 部 变量 (用 var 声明 的 变量 就 是 局 部 变量 )。 这 里 ， 先 创建 一 
个 简单 的 集合 ， 而 后 做 个 查询 ， 并 用 cursor 变量 保存 结果 : 

> for(i=0; i<100; i++) { 

... db.c.insert ({x : i}); 

> ee GUrsor sas db.-collection.find(); 
这 么 做 的 好 处 是 一 次 可 以 查看 一 条 结果 。 如 果 将 结果 放 在 全 局 变量 或 者 就 没有 放 在 
变量 中 ，MongoDB shell 会 自动 旭 代 ， 自 动 显示 最 开始 的 若干 文档 。 也 就 是 在 这 之 
前 我 们 看 到 的 种 种 例子 ， 一 般 大 家 只 想 通过 shell 看 看 集合 里 面 有 什么 ， 而 不 是 想 在 
其 中 实际 运行 程序 ， 这 样 设计 也 就 很 合适 。 
要 迹 代 结 果 ， 可 以 使 用 游标 的 next 方法 。 也 可 以 使 用 hasNext 来 查看 有 没有 其 他 
结果 。 典 型 的 结果 遍历 如 下 : 





























> while (cursor.hasNext ()) { 
,OBI SS CUrSOr.riext ()s 
1 /GO StuEf 


el 
cursor.hasNext () 检查 是 否 有 后 续 结果 存在 ， 然 后 用 cursor .next () 将 其 获得 。 
口 


游标 类 还 实现 了 迭代 器 接口 ， 所 以 可 以 在 foreach 循环 中 使 用 。 





> Var cursor = db.people.find(); 
> cursor.forEach(function(x) { 
. print (x.name); 
Re 
adam 
matt 
zak 


当 调用 fina 的 时 候 ，shell 并 不 立即 查询 数据 库 ， 而 是 等 待 真正 开始 要 求 获 得 结果 的 时 
候 才 发 送 查 询 ， 这 样 在 执行 之 前 可 以 给 查询 附加 额外 的 选项 。 几 乎 所 有 游标 对 象 的 方法 
都 返回 游标 本 身 ， 这 样 就 可 以 按 任意 顺序 组 成 方法 链 。 例 如 ， 下 面 几 种 表达 是 等 价 的 : 





> Var cursor = db.foo.find().sort({"x" : 1)}).1imit(1) .skip(10) 
> Var Cursor ss. db,.Ff00.£find() .Limit (li) .Bort ({"x" 3 1}) .Bkip(10) 
> Var Cursor = db.foo.find() .skip(10) .1imit (1) .sort ({"x" } 


此 时 ， 查 询 还 没有 执行 ， 所 有 这 些 函 数 都 只 是 构造 查询 。 现 在 ,假设 我 们 执行 
如 下 操作 : 


> cursor.hasNext () 


这 时 ， 查 询 被 发 往 服务 器 。shell 立刻 获取 前 100 个 结果 或 者 前 4 MB 数据 (两 者 之 
中 较 小 者 )， 这 样 下 次 调用 next 或 者 nasNext 时 就 不 必 兴 师 动 众 跑 到 服务 器 上 去 
了 。 客 户 端 用 光 了 第 一 组 结果 ，shell 会 再 一 次 联系 数据 库 ， 并 要 求 更 多 的 结果 。 这 
个 过 程 一 直 会 持续 到 游标 耗 尽 或 者 结果 全 部 返回 。 











4.5.1 limit、skip 和 sort 


最 常用 的 查询 选项 就 是 限制 返回 结果 的 数量 ， 名 略 一 定数 量 的 结果 并 排序 。 所 有 这 
些 选 项 一 定 要 在 查询 被 派发 到 服务 器 之 前 添加 。 


要 限制 结果 数量 ， 可 在 fina 后 使 用 1imit 函数 。 例 如 ， 只 返回 3 个 结果 ， 可 以 这 样 : 
> db.c.find() .1imit (3) 
要 是 匹配 的 结果 不 到 3 个 ， 则 返回 匹配 数量 的 结果 。1imit 指定 的 是 上 限 ， 而 非 下 限 。 
skip 与 1imit 类 似 : 
> db.c.find() .skip (3) 
上 面 的 操作 会 略 过 前 三 个 匹配 的 文档 ， 然 后 返回 余下 的 文档 。 如 果 集 合 里 面 能 匹配 
的 文档 少 于 3 个 ， 则 不 会 返回 任何 文档 。 


sort 用 一 个 对 象 作 为 参数 : 一 组 键 / 值 对 ， 键 对 应 文档 的 键 名 ， 值 代表 排序 的 方向 。 
排序 方向 可 以 是 1 (升序 ) 或 者 -1〈 降 序 )。 如 果 指 定 了 多 个 键 ， 则 按照 多 个 键 的 顺 








序 逐 个 排序 。 例 如 ， 要 按照 "username" 升序 及 "age" 降序 排序 ， 可 以 这 样 写 : 


> qb.c.find().sort({fusername : 1, age : -1)) 


这 3 个 方法 可 以 组 合 使 用 。 这 对 于 分 页 非常 有 用 。 例 如 ， 你 有 个 在 线 商 店 ， 有 人 想 
搜索 mp3。 若 是 想 每 页 返回 50 个 结果 ， 而 且 按照 价格 从 高 到 低 排 序 ， 可 以 这 样 写 : 





> db.stock.find({"desc" : "mp3"}) .1imit(50) .sort ({"price" : -1}) 


点 击 “ 下 一 页 ”可 以 看 到 更 多 的 结果 ， 通 过 skip 也 可 以 非常 简单 地 实现 ， 只 需要 
略 过 前 50 个 结果 就 好 了 (已 经 在 第 一 页 显示 了 ) : 





> db.stock.find({"desc" : "mp3"}) .limit(50) .skip(50) .sort ({"price" : -1}) 


然而 ， 略 过 过 多 的 结果 会 导致 性 能 问题 ， 所 以 建议 尽量 避免 。 


比较 顺序 

MongoDB 处 理 不 同类 型 的 数据 是 有 一 个 顺序 的 。 有 时 候 一 个 键 的 值 可 能 是 多 种 类 
型 的 ， 例 如 ， 整 数 和 布尔 类 型 ， 或 者 字符 串 和 nul1。 如 果 对 这 种 混合 类 型 的 键 排 
序 ， 其 排序 顺序 是 预先 定义 好 的 。 从 小 到 大 ， 甚 顺序 如 下 : 


(1) 最 小 值 

(2) null 

(3) 数字 ( 整 型 、 长 整 型 、 双 精度 ) 
(4) 字符 串 

(5) 对 象 /文档 
(6) 数组 

(7) 二 进 制 数据 
(8) 对 象 ID 

(9) 布尔 型 

(10) 日 期 型 
(11) 时 间 蕉 
(12) 正则 表达 式 
(13) 最 大 值 








4.5.2 ”避免 使 用 Skip 略 过 大 量 结果 

用 skip 略 过 少量 的 文档 还 是 不 错 的 。 但 是 要 是 数量 非常 多 的 话 ，skip 就 会 变 得 很 慢 
(几乎 每 个 数据 库 都 有 这 个 问题 ， 不 仅仅 是 MongoDB ) ， 所 以 要 尽量 避免 。 通 常 可 以 向 
文档 本 身 内置 查 询 条 件 ， 来 避免 过 大 的 skip， 或 者 利用 上 次 的 结果 来 计算 下 一 次 查询 。 








1. 不 用 skip 对 结果 分 页 

最 简单 的 分 页 方法 就 是 用 1imit 返回 结果 的 第 一 页 ， 然 后 将 每 个 后 续 页 面 作 为 相对 
于 开始 的 偏 移 量 返回 。 

// do not use: slow for large skips 

var pagel db.foo.find(criteria) .limit (100) 


Var page2 = ‘foo,.find(criteria) .skip(100) .limit (100) 
Var page3 = .foo.find(criteria) .Skip(200) .limit (100) 


“YY 人 YY 


然而 ， 一般 来 讲 可 以 找到 一 种 方法 实现 不 用 skip 的 分 页 ， 这 取决 于 查询 本 身 。 例 
如 ， 要 按照 "date" 降序 显示 文档 。 可 以 用 如 下 方式 获取 结果 的 第 一 页 : 


> var pagel = db.foo.find().sort({"date" : -1}).limit(100) 


然后 ， 可 以 利用 最 后 一 个 文档 中 "qate" 的 值 作为 查询 条 件 ， 来 获取 下 一 页 : 
Var latest = null; 


// display first page 

while (pagel.hasNext ()) { 
latest = pagel.next (); 
display (latest),; 


} 

// get next page 

var page2 = db.foo.find({"date" : {"$gt" : latest.date}}); 
page2.sort({"date" : -1})) .limit(100); 


这 样 查询 中 就 没有 skip 了 。 

2. 随机 选取 文档 

从 集合 里 面 随 机 挑选 一 个 文档 算是 个 常见 问题 。 最 策 的 (也 是 很 慢 的 ) 做 法 就 是 先 计 
算 文 档 总 数 ， 然 后 选择 一 个 从 0 到 文档 数量 之 间 的 随机 数 ， 利 用 fina 做 一 次 查询 ， 
略 过 这 个 随机 数 那么 多 的 文档 ， 这 个 随机 数 的 取 值 范围 为 0 到 集合 中 文档 的 总 数 。 


> // do not use 

> var total = db.foo.count() 
> 

> 





Var random = Math.floor(Math.random()*total) 
db.foo.find() .skip (random) .1imit (1) 


这 种 选取 随机 文档 的 做 法 实在 是 低 效 : 首先 得 计算 总 数 (要 是 有 查询 条 件 就 会 很 费 
时 ) ， 然 后 大 量 的 skip 也 会 非常 耗 时 。 
略微 动 动脑 筋 ， 从 集合 里 面 查找 一 个 随机 元 素 还 是 有 好 得 多 的 办 法 的 。 秘 诀 就 是 在 
插入 文档 时 给 每 个 文档 都 添加 一 个 额外 的 随机 键 。 例 如 在 shell 中 ， 可 以 用 Math. 
random() (产生 一 个 0~1 的 随机 数 ) : 





> dqb.people.insert ({"name" : "joe", "random" : Math.random()}) 
> dqb.people.insert ({"name" : "john", "random" : Math.random()}) 
> db.people.insert ({"name" : "jim", "random" : Math.random()}) 


这 样 ， 想 要 从 集合 中 查找 一 个 随机 文档 ， 只 要 计算 个 随机 数 并 将 其 作为 查询 条 件 就 
好 了 ， 完 全 不 用 skip: 











> Var random = Math.random() 
> result = db.foo.findone({"random" : {'"$gt" : random}}) 


也 有 偶尔 遇 到 随机 数 比 所 有 集合 里 面 存 着 的 随机 值 大 的 情况 ， 这 时 就 没有 结果 返回 
了 。 那 就 换个 方向 ， 这 样 就 万 事 大 吉 了 : 


> if (result == null) { 
. result = db.foo.findone({"random" : {"$1lt" : random}}) 


. 
要 是 集合 里 面 本 就 没有 文档 ， 则 会 返回 aul1， 这 说 得 通 。 
这 种 技巧 还 可 以 和 其 他 各 种 复杂 的 查询 一 同 使 用 ， 仅 需要 确保 有 包含 随机 键 的 索引 


即 可 。 例 如 ， 想 随机 找 一 个 加 州 的 水 暧 工 ， 可 以 对 "profession"、"state" 和 
"random" 建立 索引 : 


> db.people.ensureIndex({"profession" : 1, "state" : 1, "random" : 1}) 


这 样 就 能 很 快 得 出 一 个 随机 结果 了 (关于 索引 ， 详 见 第 5 章 )。 


4.5.3 ”高 级 查询 选项 
查询 分 为 包装 的 和 普通 的 两 类 。 普 通 的 查询 就 像 下 面 这 个 : 


> Var Guraor =. db..fo0.find({"foo" : har'"}) 


有 几 个 选项 用 于 包装 查询 。 例 如 ， 假 设 我 们 执行 一 个 排序 : 
> var cursor = db.foo.find({"foo" : "bar"}).sort({"x" : 1}) 


实际 情况 不 是 将 {"foo" : "par"}) 作为 查询 直接 发 送 给 数据 库 ， 而 是 将 查询 包 
装 在 一 个 更 大 的 文档 中 。shell 会 把 查询 从 {"foo" : "par"} 转换 成 {"$query" 
{ "E60 » bar}, Sorderby® 3: {x x 1T}}e 


绝 大 多 数 驱 动 程序 有 些 辅助 措施 向 查询 添加 各 种 选项 。 下 面 列举 了 其 他 一 些 有 用 的 选项 。 











。 Smaxscan : integer 








译注 1: 还 会 有 极 少 数 相 等 的 时 候 ，$1te 可 能 更 加 严谨 。 





背 定 查 询 最 多 扫描 的 文档 数 


部 





。 Smin : document 


查询 的 开始 条 件 。 


。 S$Smax : document 


查询 的 结束 条 件 。 


。 Shint : document 


指定 服务 器 使 用 哪个 索引 进行 查询 。 

。 S$explain : boolean 

获取 查询 执行 的 细节 (用 到 的 索引 、 结 果 数 量 、 耗 时 等 )， 而 并 非 真 正 执 行 
查询 。 

。 $snapshot : boolean 


确保 查询 的 结果 是 在 查询 执行 那 一 刻 的 一 致 快照 。 详 见 下 一 节 。 





4.5.4 ”获取 一 致 结果 
数据 处 理 通常 的 一 种 做 法 就 是 先 把 数据 从 MongoDB 中 取出 来 ， 然 后 经 过 某 种 变换 ， 
最 后 再 存 回 去 : 


GUrgor ss db £06060.f1nd.() 3; 


while (cursor.hasNext ()) { 
var doc = cursor.next\( 


)3 
doc = process (doc); 
db.foo.save (doc); 


} 
结果 比较 少时 还 好 ， 文 档 较 多 时 就 玩 不 转 了 。 为 什么 呢 ? 想象 一 下 文档 究竟 是 如 何 
存储 的 吧 。 可 以 将 集合 看 做 一 大 堆 文 档 ， 看 上 去 就 像 图 4-1。 雪 花 代表 文档 ， 因 为 
每 一 个 文档 都 是 美丽 且 唯 一 的 。 




















图 4-1; 待 查询 的 集合 




















这 样 ， 做 查找 的 时 候 ， 从 集合 的 开头 返回 结果 ， 并 向 右 移 动 。 程 序 获 取 前 100 个 文 
档 并 处 理 。 当 要 将 其 保存 回 数据 库 时 ， 如 果 文 档 体积 增加 而 预 留 空间 不 足 ， 就 像 图 
4-2， 则 需要 将 其 移动 。 通 常会 将 其 挪 至 集合 的 末尾 处 〈 如 图 4-3 所 示 )。 





















































4-2: 变 大 的 文档 已 经 超过 了 原来 分 配 的 空间 








性 迷 各 潍 











4-3: MongoDB 会 移动 不 能 放 在 原 处 的 新 文档 





接着 ,程序 继续 获取 大 量 的 文档 。 如 此 往复 ,结果 返回 了 已 经 被 挪动 的 文档 (如 图 
4-4 所 示 )。 








可 水 基于 


游标 束 











4-4: 游标 可 能 会 返回 那些 已 经 被 挪动 的 文档 





应 对 这 个 问题 的 方法 就 是 对 查询 进行 快照 。 如 果 使 用 了 "$snapshot" 选项 ， 查 询 
就 是 针对 不 变 的 集合 视图 运行 的 。 所 有 返回 一 组 结果 的 查询 实际 上 都 进行 了 快照 。 
不 一 致 只 在 游标 等 待 结果 时 集合 内 容 被 改变 的 情况 下 发 生 。 


4.6 游标 内 幕 


看 待 游 标 有 两 种 角度 : 客户 端的 游标 以 及 客户 端 游标 表示 的 数据 库 游标 。 前 面 讨论 
的 都 是 客户 端的 游标 ， 接 下 来 简要 看 看 服务 器 端 发 生 了 什么 。 


在 服务 器 端 ， 游 标 消 耗 内 存 和 其 他 资产。 游标 遍历 尽 了 结果 以 后 ， 或 者 客户 端 发 来 
消息 要 求 终止 ， 数 据 库 将 会 释放 这 些 资源 。 释 放 的 资源 可 以 被 数据 库 换 作 他 用 ， 这 
是 非常 有 益 的 ， 所 以 要 尽量 保证 尽快 释放 游标 〈 在 合理 的 前 提 下 )。 


还 有 一 些 情况 导致 游标 终止 (随后 被 清理 )。 首 先 ， 当 游标 完成 匹配 结果 的 达 代 时 ， 
它 会 清除 自身 。 另 外 ， 当 游标 在 客户 端 已 经 不 在 作用 域内 了 ， 驱 动 会 向 服务 器 发 送 
专门 的 消息 ， 让 其 销毁 游标 。 最 后 ， 即 便 用 户 也 疫 有 迭代 完 所 有 结果 ， 并 且 游 标 也 
还 在 作用 域 中 ，10 分 钟 不 使 用 ， 数 据 库 游标 也 会 自动 销毁 。 


这 种 “超时 销毁 ”的 行为 是 我 们 希望 的 : 极 少 有 应 用 程序 希望 用 户 花费 数 分 钟 坐 在 
那里 等 待 结果 。 然 而 ， 的 确 有 些 时 候 希 望 游标 持续 的 时 间 长 一 些 。 千 是 如 此 的 话 ， 
多 数 驱 动 程序 都 实现 了 一 个 叫 immortal 的 函数 ， 或 者 类 似 的 机 制 ， 来 告知 数据 库 
不 要 让 游标 超时 。 如 果 关 闭 了 游标 的 超时 时 间 ， 则 一 定 要 在 迭代 完结 果 后 将 其 关闭 ， 
否则 它 会 一 直 在 数据 库 中 消耗 服务 器 资源 。 
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系 引 





索引 就 是 用 来 加 速 查询 的 。 数 据 库 索引 与 书籍 的 索引 类 似 : 有 了 索引 就 不 需要 翻 遍 
整 本 书 ， 数 据 库 则 可 以 直接 在 索引 中 查找 ， 使 得 查找 速度 能 提高 儿 个 数量 级 。 在 索 
引 中 找到 条 目 以 后 ， 就 可 以 直接 跳 转 到 目标 文档 的 位 置 。 

让 这 个 比喻 走 个 极端 ， 可 以 说 创建 数据 库 索 引 就 像 确 定 如 何 组 织 书 的 索引 一 样 。 但 
你 的 优势 是 知道 今后 会 做 何 种 查询 ， 以 及 哪些 内 容 需 要 快速 查找 。 比 如 ， 所 有 的 查 
询 都 包括 "aate" 键 ， 那 么 很 可 能 (至 少 ) 需要 建立 一 个 关于 "date" 的 索引 。 如 
果 要 查询 用 户 名 ， 则 不 必 索 引 "user_num" 键 ， 因 为 根本 不 会 对 其 进行 查询 。 


5.1 索引 简介 


要 掌握 如 何 为 查询 配置 最 佳 索 引 会 有 些 难 度 ， 但 却 是 非常 值得 努力 去 做 。 有 了 时候 花 
费 数 分 钟 的 查询 ， 如 果 配 合适 当 的 索引 可 能 会 即刻 完成 。 





a MongoDB 的 索引 几乎 与 传统 的 关系 型 数据 库 索 引 一 模 一 样 ， 所 以 如 果 已 

Ce 经 掌握 了 那些 技巧 ， 则 可 以 跳 过 本 节 的 语法 说 明 。 后 面 会 有 些 索 引 的 基 

ts' 外 础 知识 ， 但 一 定 要 记 住 这 里 涉及 的 只 是 冰山 一 角 ， 绝 大 多 数 优化 MySQL/ 
” ”Oracle/SQLite 索引 的 技巧 也 同样 适用 于 MongoDB。 








现在 要 依照 某 个 键 进行 查找 : 





> db.people.find({"username" : "mark"}) 


当 查 询 中 仅 使 用 一 个 键 时 ， 可 以 对 该 键 建立 索引 ， 以 提高 查询 速度 。 本 例 中 ， 对 
"username" 建立 索引 。 创 建 索引 要 使 用 ensureIndex 方法 : 
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> db.people.ensureIndex({"username" : 1)) 
对 于 同一 个 集合 ， 同 样 的 索引 只 需要 创建 一 次 。 反 复 创建 是 徒劳 的 。 


对 某 个 键 创建 的 索引 会 加 速 对 该 键 的 查询 。 然 而 ， 对 于 其 他 查询 可 能 没有 帮助 ， 即 便 是 查 
询 包 含 了 被 索引 的 键 。 例 如 ， 下 面 的 查询 就 不 会 从 先前 建立 索引 中 获得 任何 的 性 能 提升 。 








> db.people.find({"date" : datel}).sort({"date" : 1, "username" : 1}) 
服务 器 必须 “查找 整 本 书 ” 找 到 想 要 的 日 期 。 这 个 过 程 称 作 表 扫描 ， 就 是 在 没有 素 
引 的 书 中 找 内 容 ， 要 从 第 一 页 开始 ， 从 前 翻 到 后 。 通 常 来 说 ， 要 尽量 避免 让 服务 器 
做 表 扫 描 ， 因 为 当 集合 很 大 时 会 非常 慢 。 
实践 证 明 ， 一 定 要 创建 查询 中 用 到 的 所 有 键 的 索引 。 例 如 ， 对 于 上 面 的 查询 ， 应 该 
建立 日 期 和 用 户 名 的 索引 : 





> db.ensureIndex({"date" : 1, "username" : 1}) 


传递 给 ensureIndex 的 文档 其 形式 与 传递 给 sort 的 文档 形式 一 样 : 一 组 值 为 1 或 
者 -1 的 键 , 表示 索引 创建 的 方向 。 若 索引 只 有 一 个 键 ， 则 方向 无 关 紧 要 。 单 键 索引 
有 点 像 一 个 按照 字母 顺序 组 织 的 书籍 索引 : 无 论 从 A 到 Z， 还 是 从 Z 到 A， 显然 都 
要 从 M 开始 查找 。 


若是 有 多 个 键 ， 就 得 芳 虑 索引 的 方向 问题 了 。 例 如 有 如 下 的 用 户 集合 : 





{ "id : ..., "username" : "smith", "age" : 48, "user id" : 0 } 

{ "_ id" : ..., "username" : "smith", "age" : 30, "user id" : 1 } 

{ "id" : ..., "username" : "john", "age" : 36, "user id" : 2 } 

{ "_id" : ..., "username" : "john", "age" : 18, "user id" : 3 } 

{ "id" : ..., "username" : "joe", "age" : 36, "user id" : 4 } 

{ dy on "USernamer ss VJohn',. vaoer 3 Ty. Vuser td 5 

{ "id" : ..., "username" : "simon", "age" : 3, "user id" : 6 } 

{ "id : ..., "username" : "joe", "age" : 27, "user id" : 7 } 

{ "id" : ..., "username" : "jacob'", "age" : 17, "user id" : 8 } 

{ "id" : ..., "username" : "sally", "age" : 52, "user id" : 9 } 

{ "id : ..., "username" : "simon", "age" : 59, "user id" : 10 } 
比如 以 {"username" : 1，"age" : -1} 这 种 方式 创建 索引 。MongoDB 会 按 如 
下 方式 组 织 用 户 : 

{ "_id" : ..., "username" : "jacob", "age" : 17, "user id" : 8 } 

{ "_ id" : ..., "username" : "joe", "age" : 36, "user id" : 4 } 

{ "id : ..., "username" : "joe", "age" : 27, "user id" : 7 } 

{ "id" : ..., "username" : "john", "age" : 36, "user id" : 2 } 

{ "_ id" : ..., "username" : "john", "age" : 18, "user id" : 3 } 

{ "_ id" : ..., "username" : "john", "age" : 7, "user id" : 5 } 

{ "id : ..., "username" : "sally", "age" : 52, "user id" : 9 } 
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{ "id" : ..., "username" : "simon"，"age" : 59, "user id" : 10 } 
{ "_id" : ..., "username" : "simon", "age" : 3, "user id" : 6 } 

{ "id" : ..., "username" : "smith", "age" : 48, "user id" : 0 } 
{ "id" : ..., "username" : "smith", "age" : 30, "user id" 二 


用 户 名 严格 地 按照 字母 升序 排列 ， 同 名 的 组 按照 年 龄 降序 排列 。 这 对 { "username" 
2 7 "age" : -1}) 这 样 的 排序 做 了 优化 ， 但 是 对 {"username" J Age, 
1} 就 不 那么 有 效 了 。 要 是 想 对 其 优化 的 话 ， 则 需 建 立 { "usezrnamen ie 
: 1} 的 索引 以 便 按 照 年 龄 升序 组 织 。 


对 用 户 名 和 年 龄 的 索引 同样 能 加 快 对 用 户 名 的 查询 。 一 般 来 说 ， 如 果 索 引 包 含 N 
个 键 ， 则 对 于 前 几 个 键 的 查询 都 会 有 帮助 。 比 如 有 个 索引 {"a" : 1, "pb" : 1, 
mcr :1，...，"z0 : 1}, 实际 上 是 有 了 {raw : 1}、fna" : 1，"b" : 1}、 
fnra" : 1，"b" : 1，"c" :1} 等 的 索引 。 但 是 使 用 {"b" : 1}、 {"a" : 1, 
"cn ; 1} 等 索引 的 查询 则 不 会 被 优化 ， 只 有 使 用 索引 前 部 的 查询 才能 使 用 该 索引 。 


MongoDB 的 查询 优化 器 会 重 排查 询 项 的 顺序 ， 以 便利 用 索引 : 比如 查询 {"x" 
"foo"，"y" : "par"} 的 时 候 , 已 经 有 了 {ry" : 1，"x" : 1} 的 索引 ， 
MongoDB 会 自己 找到 并 利用 它 。 


创建 索引 的 缺点 就 是 每 次 插入 、 更 新 和 删除 时 都 会 产生 额外 的 开销 。 这 是 因为 数据 


库 不 但 需要 执行 这 些 操作 ， 还 要 将 这 些 操作 在 集合 的 索引 中 标记 。 因 此 ， 要 尽 可 能 
少 创建 索引 。 每 个 集合 默认 的 最 大 索引 个 数 为 64 个 ， 能 够 应 付 绝 大 多 数 情况 了 。 














[一 一 一定 不 要 索引 每 一 个 键 。 这 会 导致 插入 非常 慢 ， 还 会 占用 很 多 空间 ， 并 且 

CB》 很 可 能 对 查询 速度 提升 不 大 。 仔 细 考 虑 到 底 要 做 什么 样 的 查询 ， 什 么 样 的 

一 一 一 索引 适合 这 样 的 查询 ， 通 过 explain 和 hint 工具 确保 服务 器 使 用 了 业已 
建立 的 索引 ， 这 两 个 工具 会 在 下 一 节 详 细 介绍 。 























有 些 时 候 ， 最 有 效 的 方法 居然 是 不 使 用 索引 。 一 般 说 来 ， 要 是 查询 要 返回 集合 中 一 
半 以 上 的 结果 ， 用 表 扫 描 会 比 几 乎 每 条 文档 都 查 索 引 要 高 效 一 些 。 所 以 ， 查 询 是 否 
存在 某 个 键 ， 或 者 检查 某 个 布尔 类 型 的 值 为 真 还 是 为 假 ， 真 的 没有 用 索引 的 必要 。 


5.1.1 扩展 索引 
假设 我 们 有 个 集合 ， 保 在 了 用 户 的 状态 消息 。 现 在 想 要 查询 用 户 和 日 期 ， 取 出 某 一 
用 户 最 近 的 状态 。 以 我 们 目前 所 学 ， 我 们 会 像 下 面 这 样 创建 一 个 索引 : 





> db.status.ensureIndex({user : 1, date : -1)) 


这 会 使 对 用 户 和 日 期 的 查询 非常 快 ， 但 是 并 不 是 最 好 的 方式 。 





索 引 | 67 


再 想 想 书籍 的 索引 。 有 一 组 文档 按照 用 户 名 (升序 ) 排序 ， 尔 后 按 着 日 期 (降序 ) 
排序 ， 所 以 会 是 这 种 情形 : 

User 123 on March 13, 2010 

User 123 on March 12, 2010 

User 123 on March 11, 2010 

User 123 on March 5, 2010 

User 123 on March 4, 2010 


User 124 on March 12, 2010 
User 124 on March 11, 2010 


这 点 数据 看 着 还 行 ， 但 是 应 用 会 有 数 百 万 的 用 户 ,， 每 人 每 天 有 数 十 条 状态 更 新 。 吞 
是 每 条 用 户 状态 的 索引 值 占 用 类 似 一 页 纸 的 磁盘 空间 ， 那 么 对 于 每 次 “最 新 状态 ” 
的 查询 ， 数 据 库 都 会 将 不 同 的 页 载 和 内存。 若是 站 点 太 热 门 ， 内 存放 不 下 所 有 的 索 
引 ， 就 会 非常 非常 慢 。 

要 是 改变 索引 的 顺序 ， 变 成 {date : -1，user : 1}， 则 数据 库 可 以 将 最 后 几 天 的 索 
引 保 存在 内 存 中 ， 可 以 有 效 减少 内 存 交 换 ， 这 样 查询 任何 用 户 的 最 新 状态 都 会 快 很 多 。 
所 以 ， 建 立 索 引 时 要 考虑 如 下 问题 。 

(1) 会 做 什么 样 的 查询 ? 其 中 哪些 键 需要 索引 ? 

(2) 每 个 键 的 索引 方向 是 怎样 的 ? 

(3) 如 何 应 对 扩展 ?有 没有 种 不 同 的 键 的 排列 可 以 使 常用 数据 更 多 地 保留 在 内 存 中 ? 


要 是 能 回答 这 些 问题 ， 说 明 你 已 经 做 好 了 索引 的 准备 了 。 


5.1.2 索引 内 由 文档 中 的 键 


为 内 磐 文档 的 键 建立 索引 和 为 普通 的 键 创建 索引 没有 什么 区 别 。 例 如 ， 要 想 按 日 期 搜索 博 
客 文 章 的 评论 ， 可 以 在 由 内 租 的 "comments" 文档 组 成 的 数组 中 对 "qate" 键 创建 索引 : 





























> db.blog.ensureIndex({"comments.date" : 1}) 


对 内 咀 文 档 的 键 索 引 与 普通 键 索引 并 无 差异 ， 两 者 也 可 以 联合 组 成 复合 索引 。 


5.1.3 为 排序 创建 索引 


随 着 集合 的 增长 ， 需 要 针对 查询 中 大 量 的 排序 做 索引 。 如 果 对 没有 索引 的 键 调用 
sort，MongoDB 需要 将 所 有 数据 提取 到 内 存 来 排序 。 因 此 ， 可 以 做 无 索引 排序 是 
有 个 上 限 的 ， 那 就 是 不 可 能 在 内 存 里 面 做 了 级 别 数据 的 排序 。 一 旦 集合 大 到 不 能 在 
内 存 中 排序 ，MongoDB 就 会 报错 。 
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按照 排序 来 索引 以 便 让 MongoDB 按照 顺序 提取 数据 ， 这 样 就 能 排序 大 规模 数据 ， 
而 不 必 担 心 用 光 内 存 。 


5.1.4 索引 名 称 

集合 中 的 每 个 索引 都 有 一 个 字符 串 类 型 的 名 字 ， 来 唯一 标识 索引 ， 服 务 器 通过 这 个 
名 字 来 删除 或 者 操作 索引 。 上 默认 情况 下 ， 索 引 名 类 似 keynamel dirl keyname2 
dir2 ... keynameN dirN 这 种 形式 ， 其 中 keynamex 代表 索引 的 键 ，airx 代表 索 
引 的 方向 (1 或 者 -1)。 要 是 索引 的 键 特别 多 ， 这 样 命名 就 略 显 轴 条 了 ， 不 过 还 好 可 
以 通过 ensureIndex 的 选项 来 指定 自 定义 的 名 字 : 

















> db.foo,.enaurerndex({"ar : 1; "Ys 1 Ter 3 1 won VE ss 1}, {name™ 
: "alphabet"}) 


索引 名 有 字符 个 数 的 限制 ， 所 以 特别 复杂 的 索引 在 创建 时 一 定 要 使 用 自 定义 的 名 字 。 
可 以 用 getLastError 来 检查 索引 是 否 成 功 创建 了 或 者 未 成 功 创建 的 原因 。 


5.2 ”唯一 索引 


唯一 索引 可 以 确保 集合 的 每 一 个 文档 的 指定 键 都 有 唯一 值 。 例 如 ， 如 果 想 保证 文档 
的 "username" 键 都 有 不 一 样 的 值 ， 创 建 一 个 唯一 索引 就 好 了 : 











> db.people.ensureIndex({"username" : 1}, {"unique" : true}) 
一 定 要 牢记 默认 情况 下 ，insert 并 不 检查 文档 是 否 插 入 过 了 。 所 以 ， 为 了 避免 插 
入 的 文档 中 包含 与 唯一 键 重复 的 值 ， 可 能 要 用 安全 插入 才能 满足 要 求 。 这 样 ， 在 插 
入 这 样 的 文档 时 会 看 到 存在 重复 键 错误 的 提示 。 


可 能 我 们 最 熟悉 的 唯一 索引 就 是 对 "id" 的 索引 了 ， 这 个 索引 是 在 创建 普通 集合 时 
一 同 创建 的 。 这 个 索引 和 普通 唯一 索引 只 有 一 点 不 同 ， 就 是 不 能 删除 。 


























三 如 果 没 有 对 应 的 键 ， 索 引 会 将 其 作为 nu11 存储 。 所 以 ， 如 果 对 某 个 键 寻 
Se 立 了 唯一 索 引 ， 但 插入 了 多 个 缺少 该 索引 键 的 文档 ， 则 由 于 文档 包含 nu11 
一 值 而 导致 插入 失败 。 


























5.2.1 消除 重复 
当 为 已 有 的 集合 创建 索引 ， 可 能 有 些 值 已 经 有 重复 了 。 若 是 真 的 发 生 这 种 情况 ， 那 
么 索引 的 创建 就 是 失败 。 有 些 时 候 ， 可 能 希望 将 所 有 包含 重复 值 的 文档 都 删 掉 。 
dropDups 选项 就 可 以 保留 发 现 的 第 一 个 文档 ， 而 删除 接 下 来 的 有 重复 值 的 文档 : 














> db.people.ensureIndex({"username" : 1}, {"unique" : true, "dropDups" 
: true}) 


这 种 做 法 多 少 有 点 鲁 闫 ， 如 果 数 据 很 重要 的 话 ， 还 是 写 个 脚本 做 个 预 处 理 比较 稳妥 。 


5.2.2 复合 唯一 索引 
创建 复合 唯一 索引 的 时 候 ， 单 个 键 的 值 可 以 相同 ， 只 要 所 有 键 的 值 组 合 起 来 不 同 就 好 。 


GirdFS 是 MongoDB 中 存储 大 文件 的 标准 方式 〈 详 见 第 7 章 )， 其 中 就 用 到 了 复合 
唯一 索引 。 存 储 文件 内 容 的 集合 有 一 个 复合 唯一 索引 {files id : 1, n : 1)}， 
看 起 来 就 像 : 
{files idq : ObjectId 
{files id : ObjectId 
{files id : ObjectId 
{files id : ObjectId 
注意 ， 所 有 "files id" 的 值 都 相同 ， 但 是 "nv' 的 值 不 同 。 若 是 试图 再 次 插入 
{files iqd : ObjectId("4b23c3ca7525f35f94b60a2d")，n : 1}， 则 数据 
库 会 提示 存在 重复 键 的 错误 。 


"4b23c3ca7525f35f94b60a2d" 
"4b23c3ca7525f35f94b60a2d" 
"4b23c3ca7525f£f35f94b60a2d" 


( 
( 
( 
("4b23c3ca7525f35f94b60a2d" 


让 起, 抄 








5.3 使 用 explain 和 hint 

explain 是 一 个 非常 有 用 的 工具 ， 会 帮助 你 获得 查询 方面 诸多 有 用 的 信息 。 只 要 对 
游标 调用 该 方法 ， 就 可 以 得 到 查询 细节 。explain 会 返回 一 个 文档 ， 而 不 是 游标 本 
身 ， 这 是 与 多 数 游标 方法 不 同 之 处 。 








> db.foo.find() .explain () 


explain 会 返回 查询 使 用 的 索引 情况 (如果 有 的 话 )， 耗 时 及 扫描 文档 数 的 统计 信息 。 


例如 ， 索引 {"usernamen" . 1} 对 单个 键 的 查询 非常 有 帮助 ， 但 是 多 数 查 询 要 复杂 
得 多 。 比 如 ， 要 做 如 下 查询 并 排序 : 


> db.people.find({"age" : 18}).sort({"username" : 1}) 


这 时 就 搞 不 太 准 数据 库 到 底 用 没 用 已 经 创建 的 索引 ， 或 者 到 底 效 率 如 何 。 使 用 
explain 就 会 得 到 当前 查询 所 使 用 的 索引 ， 消 耗 了 多 少时 间 ， 以 及 数据 库 需 要 扫描 
多 少 文档 才能 得 到 结果 。 


对 于 一 个 只 有 64 个 文档 ， 没 有 索引 ("_iqa" 索引 除外 ) 的 数据 库 ， 做 一 次 最 简单 
的 查询 ({})，explain 的 输出 类 似 下 面 这 样 : 
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> db.people.find() .explain() 


"BasSieCUrSOr™, 


Ls; 


Teoureoe yl 3 
"indexBounds" : 
: 64, 
"nscannedObjects" : 
: 64， 

#1 
"allpPlAans™ 2 


{ 


"nscanned" 
64, 


mn" 


[ 


maBioeCurBor., 


[ 


人 区 相合 
"indexBounds" : 


} 
结果 中 的 要 点 如 下 。 


"Cursor" : "BasicCursor" 


这 说 明 查 询 没有 使 用 索引 (并 不 意外 ， 因 为 没有 查询 条 





件 )。 一 会 儿 会 看 到 有 索引 的 


情形 。 

"nscanned" : 64 

这 个 数字 代表 数据 库 查 找 了 多 少 个 文档 。 大 家 都 想 让 这 个 数字 尽 可 能 地 接近 返 
回 结果 的 数量 。 

WV 

这 个 代表 返回 文档 的 数量 。 这 个 例子 非常 完美 ， 因 为 扫描 的 文档 数量 和 返回 的 
文档 数量 完全 一 致 。 当 然 ， 这 是 由 于 返回 了 整个 集合 ， 否 则 的 话 很 难 做 到 。 
1 

这 个 毫秒 数 表示 数据 库 执 行 查询 的 时 间 。0 是 非常 理想 的 成 绩 。 








假设 现在 有 一 个 基于 "age" 键 的 索引 ， 现 在 要 查找 20 多 


用 explain 会 是 这 样 的 : 


岁 的 用 户 。 对 这 个 查询 使 


> db.c.find({age : {S$gt : 20, $lt : 30})) .explain() 
{ 
"CUTSOr™" ; "BtreeCursor age 1"™, 
"indexBounds" : [ 
[ 
{ 
eT 了 
{ 
Se # 30 
} 





] ， 


"nscanned" : 14, 


"nscannedObjects" : 12, 
"nn : 12， 
Li 和 二 7 
"allPlans" : [ 
MOUrSOr™ : "BLreeCursor age 1L"; 
"indexBounds" : [ 
[ 
"age" 20 
"agen 30 


} 
因为 有 了 索引 ， 和 上 个 例子 有 些 不 一 样 ， 所 以 explain 的 几 个 输出 键 值 发 生 了 改变 


OUrSoOr" "BLESGSCUrSOr a9e. 7 


查询 不 像 先 前 一 样 使 用 了 Basiccursor。 索 引 存 储 在 B 树 的 结构 中 ， 所 以 当 
使 用 索引 查询 ， 就 会 使 用 叫做 Btreecursor 类 型 的 游标 。 

这 个 值 也 标识 了 使 用 的 索引 名 age _ 1。 通过 这 个 名 字 ， 可 以 查询 Se 
indexes 集合 来 获取 关于 这 个 索引 更 进一步 的 信息 (例如 ， 是 否 是 唯一 索引 ， 
包含 哪些 键 ) : 





> db.system.indexes.find({"ns" : "test.c"，"name" : "age 1"})) 
{ 
"_id" : ObjectId("4c0d211478b4eaaf7fb28565"), 
Tn 
1 key" : { 
"age" : 1 
1 
ame” : "age 工 " 
} 
allelaneY % [ww 


这 个 键 列举 了 所 有 MongoDB 考虑 的 查询 方案 。 当 然 这 里 的 选择 还 是 比较 显然 
的 ， 因 为 已 经 有 了 "age" 索引 ,恰恰 也 是 要 查找 mage"。 要 是 索引 相互 重合 ， 
查询 也 很 复杂 ，"allPlans'" 就 会 包含 所 有 可 能 用 到 的 尝试 。 





看 一 个 稍微 复杂 一 点 的 例子 。 假 设 已 经 有 {"username" : 1，"age" : 1} 和 和 
{"age" : 1，"username" : 1}) 的 索引 了 ， 现 在 要 查询 用 户 名 和 年 龄 ， 会 怎么 样 
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呢 ? 要 看 具体 的 查询 了 : 


> db.c.find({age : {S$gt : 10}, username : "sally")) .explain() 
{ 
"Cursor™ 3 “BtreeCursor username 1 age 1", 
"indexBounds" : |[ 


[ 


"username" » sally", 
Tager + 40 
rusernamert 3 "Sally™, 
"age" ; 1.7976931348623157e+308 
] 
] sy 
"nscanned" : 13, 
"nscannedObjects" : 13, 
nn : 13, 
"millis" ; 5, 
"allPlans" : [ 
"CUuUrSOr" : "BtreeCursor USername 1 age 1", 
"indexBounds" : [ 


[ 


"username" : "sally", 
Wade 

"username" : "sally", 
nh age Tm 


1.7976931348623157e+308 


] ， 


"oldPlan" : { 
"eursor™ 3 TBEreesCursor. vBername. 1 age 工 17 
"indexBounds" : | 


[ 


"username" : "sally", 

Se ss 了 

"wsername™ ;: vsally", 

"age™ >: 工 .7976931348623157e+308 





这 里 的 查询 要 求 精确 匹配 用 户 名 和 年 龄 范围 ， 所 以 数据 库 使 用 了 { "username" 
1， "age" : 1} 索 引 ， 而 自己 调换 了 查询 项 的 顺序 。 另 一 方面 ， 如 果 查 找 严格 匹 
配 的 年 龄 和 名 字 范 围 ，MongoDB 就 会 使 用 别 的 索引 : 





> db.c.find({"age" : 14, "username" : /.*/}) .explain() 
"Cursor™ ;: "BtreeCursor age 1 username 1 multi", 
"indexBounds" : |[ 
. 
{ 
"age" : 14, 
"usSername™ 
{ 
1 可 BE ££ 二 和， 
"username" : { 
] ， 
[ 
Vage™ 3 14, 
"username" : /.*/ 
{ 
二 可 BE .14 
"username" : /.*/ 
] 
] ， 
"nscanned" : 2， 
"nscannedObjects" : 2， 
rn" : 2 
"millis" ; 2, 
"allPlans" : [ 
"cursor" : "BtreeCursor age 1 username 1 multi", 
"indexBounds" : |[ 
[ 
na 
"username®™ : "™" 
和 
"username" : { 
] ， 
[ 





各 本 人 二 


"username" : /.*/ 
vage™ 3 1 
"username" : /.*/ 


} 


如 果 发 现 MongoDB 用 了 非 预期 的 索引 ， 可 以 用 hint 强制 使 用 某 个 索引 。 例 如 ， 希 
望 MongoDB 在 上 一 个 例子 中 使 用 { "username" : 1，"age" : 1} 索引 ， 则 需要 : 





> db.c.find({"age" : 14, "username" : /.*/}) .hint({"username" : 1, 
"age" : 1}) 
多 数 情况 下 这 种 指定 都 没什么 必要 。MongoDB 的 查询 优化 器 非常 智能 ， 会 在 你 选 
择 该 用 哪个 索引 。 和 初次 做 某 个 查询 时 ， 查 询 优 化 器 会 同时 尝试 各 种 查询 方案 。 最 先 
完成 的 被 确定 使 用 ， 甚 他 的 则 终止 掉 。 查 询 方案 被 记录 下 来 ， 以 备 日 后 应 对 相同 键 
的 查询 。 查 询 优 化 器 定期 重 试 其 他 方案 ， 以 防 因为 添加 新 的 数据 后 ， 之 前 的 方案 不 
再 是 最 优 的 了 。 只 要 关心 给 查询 优化 器 建立 可 以 选择 的 索引 就 可 以 了 。 


5.4 索引 管理 


索引 的 元 信息 存储 在 每 个 数据 库 的 system. indexes 集合 中 。 这 是 一 个 保留 集合 ， 
不 能 对 其 插入 或 者 删除 文档 。 操 作 只 能 通过 ensureIndex 或 者 dropIndexes 进行 。 





system. indexes 集合 包含 每 个 索引 的 详细 信息 ， 同 时 system.namespaces 集合 也 
含有 索引 的 名 字 。 如 果 查 看 这 个 集合 ， 会 发 现 每 个 集合 至 少 有 两 个 文档 与 之 对 应 ， 
一 个 对 应 集合 本 身 ， 一 个 对 应 集合 包含 的 索引 。 对 于 只 有 标准 的 " ia" 索引 的 集 


上 


合 ，system.namespaces 应 该 类 似 这 样 : 





{ "name" : "test.foo" } 
{ "name" : "test.foo.$ id "} 


如 果 存 在 关于 名 字 和 年 龄 的 复合 索引 ，system.namespaces 则 会 增加 一 条 文档 : 





{ "name" : "test.foo.s$name 1 age 1" } 
第 2 章 讲 到 集合 名 的 长 度 不 得 超过 121 字 节 。 这 个 有 点 诡异 的 数字 是 因为 "_ idq" 索 
引 的 命名 空间 需要 额外 的 6 字 市 (".$_id_")， 于 是 这 个 索引 名 的 长 度 就 是 略 显 有 
意义 的 127 字 节 了 。 
译注 1: 遍历 数据 库 中 的 所 有 集合 时 要 格外 小 心 ， 因 为 通常 我 们 并 不 想 对 这 个 集合 执行 操作 。 
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一 定 要 记 住 集合 名 和 索引 名 加 起 来 不 能 超过 127 字 市 。 车 是 达到 了 命名 空间 的 长 度 
限制 或 是 有 很 长 的 索引 名 ， 则 需要 自 定义 索引 名 ， 以 避免 过 长 。 一 般 来 说 让 数据 库 、 
集合 、 键 的 名 字 长 度 适中 要 比 改名 来 得 容易 一 些 。 


修改 索引 
随 着 你 的 应 用 和 你 一 起 慢 慢 变 老 ， 你 会 发 现 数据 或 者 查询 已 经 发 生 了 改变 ， 原 来 的 
索引 也 不 那么 好 用 了 。 不 过 使 用 ensurerngex 随时 可 以 向 现 有 集合 添加 新 的 索引 ， 


> db.people.ensureIndex({"username" : 1}, {'"background" : true}) 


建立 索引 既 耗 时 也 费力 ， 还 需要 消耗 很 多 资源 。 使 用 {"background" : true} 选 
项 可 以 使 这 个 过 程 在 后 Ee 同时 正常 处 理 请 求 。 要 是 不 包括 background 这 个 
选项 ， 数 据 库 会 阻塞 建立 索引 期 间 的 所 有 请 求 。 


阻塞 的 做 法 会 让 索引 建立 得 更 快 ， 同 时 也 意味 着 应 用 在 此 期 间 不 能 应 答 。 即 便 在 后 
台 进 行 也 会 对 正常 操作 有 些 影响 ， 所 以 最 好 选 在 无 关 紧 要 的 时 刻 。 后 台 创 建 索引 也 
会 增加 些 负载 ， 好 在 不 会 让 服务 器 停机 。 


为 已 有 文档 创建 索引 比 先 创建 索引 再 插入 所 有 文档 要 稍 快 一 点 。 当 然 ， 要 是 集合 的 
数据 从 无 到 有 ， 事 先 创建 一 个 索引 也 未 尝 不 可 。 


要 是 索引 没 用 了 ， 便 可 以 用 dropIndexes 加 上 索引 名 将 其 删除 。 通 常 ， 要 查 一 下 
system.indexes 集合 来 找 出 索引 名 ， 因 为 即便 是 自动 生成 的 名 字 也 会 因为 驱动 程 
序 不 同 而 不 同 。 




















> db.runCommand ({"dropIndexes" : "foo", "index" : "alphabet"})) 


要 删除 所 有 索引 ， 可 以 将 indqex 的 值 赋 为 *: 


> db.runCommand ({"dropIndexes" : "foo", "index" : "*"}) 


另外 一 种 删除 索引 的 方式 就 是 删除 集合 。 这 也 会 删除 _ia 索引 (还 有 和 集合 的 所 有 文档 )。 
删除 集合 的 所 有 文档 (用 remove 的 方式 ) 并 不 影响 索引 ， 当 有 新 文档 插入 时 还 会 再 生 的 。 


5.5 地 理 空 间 索 引 
还 有 一 种 查询 变 得 越 来 越 流 行 (尤其 是 随 着 移动 设备 的 出 现 ) : 找到 离 当 前 位 置 最 
近 的 N 个 场所 。MongoDB 为 坐标 平面 查询 提供 了 专门 的 索引 ， 称 作 地 理 空 间 索 引 。 


假设 要 找到 给 定 经 纬度 坐标 周围 最 近 的 咖啡 馆 ， 就 需要 创建 一 个 专门 的 索引 来 提高 
这 种 查询 的 效率 ， 这 是 因为 这 种 查询 需要 搜索 两 个 维度 。 地 理 空间 索引 同样 可 以 由 
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ensureIndex 来 创建 ， 只 不 过 参数 不 是 1 或 者 -1， 而 是 "2d": 
> db.map.ensureIndex({"gps" : "2d"}) 


"gps" 键 的 值 必须 是 某 种 形式 的 一 对 值 : 一 个 包含 两 个 元 素 的 数组 或 是 包含 两 个 键 
的 内 秽 文 档 。 下 面 这 些 都 是 有 效 的 : 


{ wap > [0 L001} 
{ "gpsn : { "rx" : -30, ny" : 30 } : 
{ "gps" : { "latitude" : -180, "longitude" : 180 } } 


至 于 键 名 可 以 随意 ， 例 如 {"gps" : {"foo" : 0， "bar"” : 1})} 也 是 可 以 的 。 


默认 情况 下 ， 地 理 空间 索引 假设 值 的 范围 是 -180~180 (对 经 纬度 来 说 很 方便 )。 要 
是 想 用 其 他 值 ， 可 以 通过 ensureIndex 的 选项 来 指定 最 大 最 小 值 : 





> db.star.trek.ensureIndex({"light-years" : "2d"}, {"min" : -1000, 
"max" : 1000}) 


这 样 就 创建 了 一 个 2000 光 年 见方 的 空间 索引 。 

地 理 空 间 查 询 以 两 种 方式 进行 , 即 普通 查询 (用 fina) 或 者 使 用 数据 库 命令 。fina 的 

方式 与 一 般 的 查询 差别 不 大 ， 只 不 过 用 了 "$near"。 需 要 两 个 目标 值 的 数组 作为 参数 : 
> db.map.find({"gps" : {"$near" : [40, -73]}}) 

文 会 按照 离 点 (40，-73) 由 近 及 远 的 方式 将 map 集合 的 所 有 文档 都 返回 。 在 没有 


指定 1imit 的 值 时 ， 默 认 是 100 个 文档 。 要 是 不 需要 这 么 多 结果 ， 就 应 该 设置 一 个 
少 点 的 值 以 节约 资源 。 例 如 ， 下 面 的 例子 将 返回 离 (40，-73) 最 近 的 10 个 文档 。 











> db.map.find({"gps" : {"Snear" : [40, -73] }}) .1imit(10) 
也 可 以 用 geoNear 来 完成 相同 的 操作 : 
> db.runCommand ({geoNear : "map", near : [40, -73], num : 10}); 


geoNear 还 会 返回 每 个 文档 到 查询 点 的 距离 。 这 个 距离 是 以 你 插入 的 数据 为 单位 
的 , 如果 按照 经 纬度 的 角度 插入 , 则 距离 就 是 经 纬度 。find 与 "$near" 的 组 合 不 会 
给 出 距离 ， 但 若是 结果 大 于 4 MB ， 这 是 唯一 的 选择 。 


MongoDB 不 但 能 找到 靠近 一 个 点 的 文档 ， 还 能 找到 指定 形状 内 的 文档 。 做 法 就 是 
将 原来 的 "snear" 换 成 "swithin"。"s$within" 获取 数量 不 断 增加 的 形状 作为 参 
数 。 若 查看 地 理 空 间 索 引 的 联机 帮助 文档 (http://www.mongodb.org/display/DOCS/ 
Geospatial+ Indexing)， 可 以 找到 最 新 的 形状 列表 。 撰 写本 书 时 ， 有 两 个 选项 : 你 可 
以 查询 矩形 和 圆 形 内 的 所 有 点 。 











对 于 矩形， 使 用 "$box" 选项 : 

> db.map.find({"gps" : {"$within" : {"$box" : [[10, 20], [1i5, 30]]}}}) 
"$box" 参数 是 两 个 元 素 的 数组 ， 第 一 个 元 素 指定 了 左下 角 的 坐标 ， 第 二 个 指定 右 
上 和 角 的 坐标 。 


同样 ， 也 可 以 用 "$center" 来 找到 圆 形 内 部 的 所 有 点 ， 只 不 过 参数 变 成 了 圆心 和 
半径 : 





> db.map.find({"gps" : {"$within" : {"$center" : [[12, 25], 5]}}}) 


5.5.1 复合 地 理 空间 索引 

应 用 经 常 要 找 的 东西 往往 不 只 是 一 个 地 点 。 例 如 ， 用 户 要 找 出 周围 所 有 的 咖啡 店 或 
者 披萨 店 。 将 地 理 空间 索引 与 普通 索引 组 合 起 来 就 可 以 满足 这 种 需求 。 例 如 ， 要 查 
询 "location" 和 "desc"， 就 可 以 这 样 创建 索引 : 





> db.ensureIndex({"location" : "2d", "desc" : 1}) 


然后 就 能 很 快 找到 最 近 的 咖啡 馆 了 : 


> db.map.find({"location" : {"$near" : [-70, 30]}, "desc" 
"coffeeshop"}) .limit (1) 


{ 


.ed" : ObjectId("4c0d1348928a815a720a0000")， 

"name" : "Mud", 

"location" : [x, Y], 

"desc" : ["coffee", "coffeeshop", "muffins", "espresso"] 


注意 ， 创 建 一 个 关键 词 数组 对 于 用 户 自 定义 查找 很 有 帮助 。 


5.5.2 ”地 球 不 是 二 维 平面 

MongoDB 的 地 理 空间 索引 假设 索引 内 容 是 在 一 个 平面 上 的 。 这 就 意味 着 对 于 球体 ， 
比如 地 球 ， 它 并 不 是 十 分 精确 ， 尤 其 是 在 极地 区 域 。 具 体 来 说 ， 两 条 经 线 之 间 纬 线 
的 长 度 在 赤道 和 在 育 空地 区 ' 是 大 不 一 样 的， 后 者 要 短 得 多 。 可 以 用 不 同 的 投影 
段 将 地 球 映射 到 二 维 平 面 ， 当 然 它 们 的 精度 和 相应 的 复杂 度 各 不 相同 。 





























译注 1: 加 拿 大 最 西部 的 联邦 领地 。 
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MongoDB 除了 基本 的 查询 功能 ， 还 提供 了 很 多 强大 的 聚合 工具 ， 其 中 简单 的 可 计 
算 集合 中 的 文档 个 数 ， 复 杂 的 可 利用 MapReduce 做 复杂 数据 分 析 。 





6.1 count 


count 是 最 简单 的 聚合 工具 ， 返 回 集合 中 的 文档 数 


二 





db.foo.count () 


db.foo.insert ({"x" : 1}) 
db.foo.count () 


EY VY SY 


不 论 集合 有 多 大 ， 都 会 很 快 返回 总 的 文档 数量 。 
也 可 以 传递 查询 ，Mongo 则 会 计算 查询 结果 的 数量 ， 


db.foo.insert ({"x" : 2}) 
db.foo.count() 








db.foo.count ({"x" : 1}) 


Pv DYV YV 


对 分 页 来 说 有 个 总 数 非常 必要 :“ 共 439 个 ， 目 前 显示 0-10。” 然 而 增加 查询 条 件 会 


使 得 count 变 慢 。 


6.2 distinct 
aistinct 用 来 找 出 给 定 键 的 所 有 不 同 的 值 。 使 用 时 必须 指定 集合 和 键 。 
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> db.runCommand ({"distinct" : "age"}) 


例如 ,假设 有 如 下 文档 : 


"people", "key" : 





{"name" : "Ada", "age" : 20} 

{"name" : "Fred", "age" : 35} 
{"name" : "Susan", "age" : 60} 
{"name" : "Andy", "age" : 35} 


如 果 对 "age'" 键 使 用 aistinct ， 会 获得 所 有 不 同 的 年 龄 : 


> db.runCommand ({"distinct" : : "age"}) 


{"values" : [20, 35, 60], "ok" 


"people", 


: 1} 


这 里 还 有 一 个 常见 问题 : 有 没有 种 方法 获得 集合 里 面 所 有 不 同 的 键 呢 ? 起 码 没有 内 
置 的 ， 不 过 可 以 用 MapReduce 自己 写 一 个 〈 后 面 会 讲 到 ) 。 


"key" 


6.3 group 


group 做 的 聚合 稍 复杂 一 些 。 先 选 定 分 组 所 依据 的 键 ， 而 后 MongoDB 就 会 将 集合 依据 
选 定 键 值 的 不 同 分 成 若干 组 。 然 后 可 以 通过 聚合 每 一 组 内 的 文档 ， 产 生 一 个 结果 文档 。 





Ee 
A 如 果 你 熟悉 SQL， 那么 这 个 group 和 SQL 中 的 GROUP BY 差不多 。 
As 
[Lm 








假设 现在 有 个 站 点 要 跟踪 股票 价格 。 从 上 午 10 点 到 下 午 4 点 每 隔 儿 分 钟 就 更 新 一 下 
某 只 股票 的 价格 ， 并 保存 在 MongoDB 中 。 现 在 报表 程序 要 获得 近 30 天 的 收盘 价 。 
用 group 就 可 以 很 容易 地 办 到 。 


股价 的 集合 中 包含 数 以 千 计 的 如 下 形式 的 文档 : 














{"day" : "2010/10/03","time" : "10/3/2010 03:57:01 GMT-400","price" : 4.23} 
{"day" : "2010/10/04", "time" : "10/4/2010 11:28:39 GMT-400","price" : 4.27} 
{"day" : "2010/10/03","time" : "10/3/2010 05:00:23 GMT-400","price" : 4.10} 
{"day" : "2010/10/06", "time" : "10/6/2010 05:27:58 GMT-400","price" : 4.30} 
{"day" : "2010/10/04", "time" : "10/4/2010 08:34:50 GMT-400","price" : 4.01} 

过 入 

了 记 着 由 于 精度 的 问题 ， 绝 不 要 将 金额 以 浮 点 数 的 方式 存储 ， 这 里 这 么 做 只 
避 4 是 为 了 简化 例子 。 

想 获得 的 结果 就 是 每 天 最 后 的 价格 列表 ， 就 像 这 样 : 
[ 
{"time" : "10/3/2010 05:00:23 GMT-400", "price" : 生计 从 下: 





{"time" : "10/4/2010 11:28:39 GMT-400", "price" : 4.27}, 
{"time" : "10/6/2010 05:27:58 GMT-400", "price" : 4.30} 





] 





先 把 集合 按照 天 分 组 ， 然 后 在 每 一 组 里 取 包 含 最 新 时 间 惟 的 文档 ， 将 其 放置 到 结果 
中 就 完成 了 。 整 个 过 程 就 像 这 样 : 








> db.runCommand ({"group" : { 
”~ MNS % VEEOGKSY: 
"EE : "day" 
. "initial" : {"time" : 0}, 
. "S$reduce" : function(doc, preyv) { 
if (doc.time > prev.time) { 
prev.price = doc.price; 
prev.time = doc.time; 
Pe } 
2 
分 解 开 来 看 看 。 
me * gtocke" 
指定 要 进行 分 组 的 集合 。 
nh key" : 是 day" 
指定 文档 分 组 依据 的 键 。 这 里 就 是 "aay" 键 。 所 有 "gay" 值 相同 的 文档 被 划分 到 
一 组 。 
"initial" : {"time" : 0} 


每 一 组 reduce 函数 调用 的 初始 时 间 ， 会 作为 初始 文档 传递 给 后 续 过 程 。 每 一 
组 的 所 有 成 员 都 会 使 用 这 个 累加 器 ， 所 以 改变 会 保留 住 。 


"$reduce" : function(doc, prev) { ... } 

每 个 文档 都 对 应 一 次 这 个 调用 。 系 统 会 传递 两 个 参数 : 当前 文档 和 累加 器 文档 
(本 组 当前 的 结果 )。 本 例 中 ， 想 让 reduce 函数 比较 当前 文档 的 时 间 和 累加 器 
的 时 间 。 如 果 当 前 文档 的 时 间 更 近 ， 则 将 累加 器 的 日 期 和 价格 替换 成 当前 文档 
的 值 。 别 忘 了 ， 每 一 组 都 有 一 个 独立 的 累加 器 ， 所 以 不 必 担 心 不 同 的 日 期 使 用 
同一 个 累加 器 。 





在 问题 一 开始 的 描述 中 ， 就 提 到 只 要 最 近 30 天 的 股价 。 然 而 ， 这 里 迭代 了 整个 集合 。 
这 束 是 为 什么 要 添加 "condition"， 因 为 这 样 就 可 以 只 处 理 满 足 条 件 的 文档 了 。 





> db.runCommand ({"group" : { 
2 EKS; 
key” : "day" 
. "initial" : {"time" : 0}, 
. "S$reduce" : function(doc, prev) 1 





if (doc.time > prev.time) { 


prev.price = doc.price; 
prev.time = doc.time; 
}}, 
. "condition" : {"day" : {'"$gt" : "2010/09/30"}} 


.1)) 


地 
eS 有 些 参 考 资 料 提 及 "cond" 键 或 者 "q" 键 ， 其 实 和 "condition" 键 是 完 
人 4 、 全 一 样 的 (就 是 看 上 去 短 点 )。 


Dm 





最 后 就 会 返回 由 30 个 文档 组 成 的 数组 ， 每 个 组 一 个 文档 。 每 组 还 有 分 组 依据 的 键 
(这 里 就 是 "day" : string) 以 及 这 组 最 终 的 prev 值 。 如 果 有 的 文档 没有 依据 
的 键 ， 就 都 会 被 分 到 一 组 ， 相 应 的 部 分 就 会 使 用 "aay : null" 这 样 的 形式 。 在 
"condition" 中 加 入 "qay" : {"$exists" : true} 就 可 以 去 掉 这 组 。group 
命令 还 会 返回 使 用 的 文档 总 数 和 "key" 有 多 少 个 不 同 的 值 : 


> db.runCommand ({"group" : {...}}) 
{ 
"retval" : 
[ 
{ 
vday™ 3: n2010/10/04", 
"time" : "Mon Oct 04 2010 11:28:39 GMT-0400 (EST)" 
"price" : 4.27 
}, 
hs 
Gount™ 734， 
keys" 30, 
ok" 1 


} 


这 里 每 组 的 "price" 都 是 显 式 设置 的 ，"time" 先 由 初始 化 器 设置 ， 然 后 也 是 主动 
更 新 。"day" 是 默认 被 加 进去 的 ， 因 为 分 组 依据 的 键 默 认 被 加 入 到 每 个 "retval" 
内 贬 文 档 中 。 要 是 不 想 返 回 这 个 键 ， 可 以 用 完成 器 把 累加 器 文档 变 成 任意 形态 ， 其 
至 变换 成 非 文 档 (例如 数字 或 字符 串 )。 


6.3.1 使 用 完成 器 

完成 器 (finalizer) 用 以 精简 从 数据 库 传 到 用 户 的 数据 ， 这 个 步骤 非常 重要 ， 因 为 
group 命令 的 输出 一 定 要 能 放 在 单个 数据 库 响 应 中 。 为 进一步 说 明 ， 这 里 举 个 博客 
的 例子 ， 其 中 每 篇 文章 都 有 多 个 标签 (tag)。 现 在 要 找 出 每 天 最 热点 的 标签 。 可 以 
(再 一 次 ) 按 天 分 组 ， 为 每 一 个 标签 计数 。 就 像 下 面 这 样 : 





> db.posts.group({ 





"key" : {"tags" : true}, 
vinitial, » (tage s:$ {}}, 
"$reduce" : functionl(doc, prev) { 
for (i in doc.tags) { 
if (aoc.tags [il in prev.tags) { 
prev.tags [doc.tags [i]]++; 


} else { 
prev.tags[ldoc.tags[i]] = 1; 
} 
} 
}}) 
结果 会 是 这 样 
[ 
{"day" : "2010/01/12", "tags" : {"nosql" : 4, "winter" : 10, "sledding" :2}}, 
"aay" : "2010/01/13", "tags" : {"soda" : 5, "php" : 2}}, 
Yy PnP 
{"day" : "2010/01/14", "tags" : { "Python : 6, "winter" : 4，"nosql": 15}} 





接着 可 以 在 客户 端 找 出 "tags" 文档 中 值 最 大 的 标签 。 然 而 ， 问 客户 端 发 送 每 天 所 有 
的 标签 文档 需要 许多 额外 的 开销 : 每 天 所 有 的 键 / 值 对 都 传送 ， 而 我 们 仅仅 需要 单个 
字符 串 。 这 也 就 是 group 有 一 个 "finalize" 键 的 原因 。"finalize" 附带 一 个 函 
数 ， 在 每 组 结果 传递 到 客户 端 之 前 被 调用 一 次 。 可 以 用 其 修剪 结果 中 的 “ 残 枝 败 叶 ”: 








> db.runCommand ({"group" : { 

MB © pogtg"., 

"key™ < ("tags™ * truel},; 

a 1 人 

"$reduce" : function(dqoc，Prev) { 

for (1 in doc tags) { 
if (doc.tags[i] in prev.tags) { 
prev.tags [doc.tags [i]]++; 


} else { 
Brev. tags lase,.tagesli]) 
} 
}, 
"finalize" : function(prev) { 
Var mostPopular = 0; 


for (i in prev.tags) { 
if (prev.tags[i] > mostPopular) { 
prev.tag = i; 
mostPopular = prev.tags [i]; 
} 
} 


delete prev.tags 


}}}) 
现在 好 了 ， 仅 返回 希望 的 结果 。 服 务 器 返回 : 





EN 2 TOOLO/OL/12"; "bag "winter"}, 





{"day" : "2010/01/13", "tag" : "soda"}, 
{"day" : "2010/01/14", "tag" : "nosql"} 
] 


finalize 能 修改 传递 的 参数 也 能 返回 新 值 。 


6.3.2 ”将 函数 做 为 键 使 用 


有 些 时 候 分 组 所 依据 的 条 件 非常 复杂 ， 不 仅 是 一 个 键 。 比 如 要 使 用 group 计算 每 个 
类 别 有 多 少 篇 博客 文章 (每 篇 文章 只 属于 一 个 类 别 )。 由 于 有 很 多 作者 ， 给 文章 分 类 
时 可 能 不 规律 地 用 了 大 小 写 。 所 以 ， 如 果 要 是 按 类 别名 来 分 组 ， 最 后 “MongoDB” 
和 “mongodb” 就 是 两 个 完全 不 同 的 组 。 为 了 消除 这 种 大 小 写 的 影响 ， 就 要 定义 一 
个 函数 来 确定 文档 分 组 所 依据 的 键 。 


定义 分 组 函数 就 要 用 到 $keyf 键 (注意 不 是 "key")。 就 像 这 样 ; 





> dbposte.group ({"ns™ : "poste", 
. "$keyf" : function(x) { return x.category.toLowerCase(); }, 
: initialiger : 2 +}) 


有 了 "$keyf" 就 能 依据 各 种 复杂 的 条 件 进 行 分 组 了 。 


6.4 MapReduce 


MapReduce 是 察 合 工具 中 的 明星 。count、distinct、group 能 做 的 上 述 事 情 
MapReduce 都 能 做 。 它 是 一 个 可 以 轻松 并 行 化 到 多 个 服务 器 的 聚合 方法 。 它 会 拆 分 
问题 ， 再 将 各 个 部 分 发 送 到 不 同 的 机 器 上 ， 让 每 台 机 器 都 完成 一 部 分 。 当 所 有 机 器 
都 完成 的 时 候 ， 再 把 结果 汇集 起 来 形成 最 终 完整 的 结果 。 


MapReduce 需要 几 个 步骤 。 最 开始 是 映射 (map)， 将 操作 映射 到 集合 中 的 每 个 文 
档 。 这 个 操作 要 么 “无 作为 ”， 要 么 “产生 一 些 键 和 X 个 值 ”。 然 后 就 是 中 间 环 节 ， 
称 作 洗 牌 (shuffle)， 按 照 键 分 组 ， 并 将 产生 的 键 值 组 成 列表 放 到 对 应 的 键 中 。 化 简 
(reduce) 则 把 列表 中 的 值 化 简 成 一 个 单 值 。 这 个 值 被 返回 ， 然 后 接着 进行 洗 牌 ， 直 
到 每 个 键 的 列表 只 有 一 个 值 为 止 ， 这 个 值 也 就 是 最 后 结果 。 


使 用 MapReduce 的 代价 就 是 速度 : group 不 是 很 快 ，MapReduce 更 慢 ， 绝 不 要 用 
在 “实时 ”环境 中 。 要 作为 后 台 任 务 来 运行 MapReduce， 将 创建 一 个 保存 结果 的 集 
合 ， 可 以 对 这 个 集合 进行 实时 查询 。 





下 面 会 多 举 几 个 MapReduce 的 例子 ， 这 个 工具 非常 强大 ， 但 也 有 点 复杂 。 





6.4.1 例 1: 找 出 集合 中 的 所 有 键 

用 MapReduce 来 解决 这 个 问题 有 点 大 材 小 用 ， 不 过 还 是 一 种 了 解 其 机 制 的 不 错 的 方 
式 。 要 是 已 经 知道 MapReduce 的 原理 ， 则 直接 跳 到 本 市 最 后 ， 看 看 MongoDB 中 用 
MapReduce 的 注意 事项 


MongoDB 没有 模式 .， a 通常 找到 集合 的 所 有 键 
的 最 好 方式 就 是 用 MapReduce。 在 本 例 中 ， 还 会 记录 每 个 键 痢 出 现 了 多 少 次 。 内 幅 
文档 中 的 键 就 不 计算 了 ， 但 给 map 函 a 能 实现 这 个 功能 了 。 


在 映射 环节 ， 想 得 到 文档 中 的 每 个 键 。map 函数 使 用 函数 emit“ 返 回 ” 要 处 理 的 值 。 
emit 会 给 MapReduce 一 个 键 (类 似 于 前 面 group 所 使 用 的 键 ) 和 一 个 值 。 这 里 用 
emit 将 文档 某 个 键 的 计数 (count) 返回 ({count : 1))。 我 们 想 为 每 个 键 单独 计 
数 ， 所 以 为 文档 中 的 每 一 个 键 调用 一 次 emit。this 就 是 当前 映射 文档 的 引用 : 

> map = function() { 


. for (var key in this) { 
ee emit (key, {count : 1})); 
. }}; 


这 样 就 有 了 许 许多 多 {count : 1} 文档 ， 每 一 个 都 与 集合 中 的 一 个 键 相关 。 这 种 
由 一 个 或 多 个 {count : 1)} 文档 组 成 的 数组 ， 会 传递 给 reduce 函数 。reduce 函 





























数 有 两 个 参数 ， 一 个 是 key， 也 就 是 emit 返回 的 第 一 个 值 ， 还 有 另外 一 个 数组 ， 
由 一 个 或 者 多 个 对 应 于 键 的 {count : 1) 文档 组 成 。 
> reduce = function(key, emits) { 
2 totaL = 03 


. for (var i in emits) { 
二 total += emits [i] .count; 


... return {"count" : total}); 

.} 

reduce 一 定 要 能 被 反复 调用 ， 不 论 是 映射 环节 还 是 前 一 个 简化 环节 。 所 以 reduce 

返回 的 文档 必须 能 作为 reduce 的 第 二 个 参数 的 一 个 元 素 。 例 如 ，x 键 映 射 到 了 3 

个 文档 {count : 1, iqd : 1}、{count : 1, id : 2} 和 {count :1, id : 
3}， 其 中 ia 键 用 于 区 别 。MongoDB 可 能 这 样 调用 reduce: 








> FL s Teduce (x; [L{eount : 1; id 二 LT), {eount < 1, 1d 2}]) 
{count : 2} 

> r2 = reduce("x", [{count : 1, id : 3}]) 

{count : 1} 

> reduce("x", [rl1, r2]) 


{count : 3} 


不 能 认为 第 二 个 参数 总 是 初始 文档 之 一 (这 里 便 是 {count : 1}) 或 者 有 固定 长 





度 。reduce 应 该 能 处 理 emit 文档 和 其 他 reduce 结果 的 各 种 组 合 。 
总 之 ，MapReduce 函数 类 似 这 样 : 





> mr = db.runCommand({"mapreduce" : "foo"，"map" : map, "reduce" : 
reduce}) 
vresult” s “Emp meemapreduce 1266787811 工 % 5 
"timeMillis" : 12, 
veOURESY 3 
ay eo hse 
"emit" : 14 
output® : 5 
vokKY 3 euUe 


} 
MapReduce 返回 的 文档 包含 很 多 与 操作 有 关 的 元 信息 : 
"result" # "Emp. mr mapreduce: 1266787811. TL" 


这 是 存放 MapReduce 结果 的 集合 名 。 这 是 个 临时 集合 ，MapReduce 的 连接 关闭 后 自动 
就 被 删除 了 。 本 章 稍 后 会 讲 如 何 指定 一 个 好 一 点 的 名 字 和 如 何 让 集合 具有 持久 性 。 


"timeMillis" : 12 
操作 花费 的 时 间 ， 单 位 是 毫秒 。 


weunEesnm 3 人 


这 个 内 岁 文 档 包含 3 个 键 。 


inputr 6 
发 送 到 map 函数 的 文档 个 数 。 
"emit" : 14 


在 map 函数 中 emit 被 调用 的 次 数 。 


Toutputr > 入 


结果 集合 中 创建 的 文档 数量 。 
"counts" 对 调试 非常 有 帮助 。 
对 结果 集合 进行 查询 会 发 现 原 有 集合 的 所 有 键 及 其 计数 : 








> db[lmr.result] .find() 
Cv lar Tad, “valuer sd Veount. 6} 
{ "iad" : "a", "value" : { "count" : 4 }} 





{ vd: Th vvalue™ ts { "eount™ 2 2 } 1} 
{ ia s Mx TyaLluer ss {TeountY “小 中 
人 "myn valdev i { Tecount™ :TL }} 


每 个 键 值 变 为 一 个 "_idq"， 最 终 化 简 步 又 的 结果 变 为 "value"。 


6.4.2 ” 例 2: 网 页 分 类 

假设 有 个 网 站 ， 人 们 可 以 提交 其 他 网 页 的 链接 ， 比 如 reddit.com。 提 交 者 可 以 给 这 
个 链接 做 标签 ， 表 明 主 题 ， 比 如 “politics” “geek” 或 者 “icanhascheezburger”。 可 
以 用 MapReduce 找 出 哪个 主题 最 为 热门 ， 热 门 与 否 由 最 近 的 投票 决定 。 


首先 ， 建立 一 个 map 函数 ， 发 出 (emit) 标签 和 一 个 基于 流行 度 和 新 近 程 度 的 值 。 








map = function() { 
for (var i in this.tags) { 
Var recency = 1/(new Date() - this.dqate) ; 
Var score = recency * this.score; 
emit (this.tags[i], {"urls" : [this.url], "score" : score}); 


}; 
现在 就 化 简 同 一 个 标签 的 所 有 值 ， 形 成 这 个 标签 的 分 数 : 





reduce = function(key, emits) { 
var total = {urls : [], score : 0} 
for (var i in emits) { 
emits[i] .urls.forEach(function(url) { 
otal -Urls: Dust(url); 


} 


total.score += emits[i] .score; 


return total; 


}; 
最 终 的 集合 包含 每 个 标签 的 URL 列表 和 表示 该 标签 流行 程度 的 分 数 。 


6.4.3 MongoDB 和 MapReduce 


前 面 两 个 例子 只 用 到 了 mapreduce、map 和 reduce 键 。 这 3 个 键 是 忌 
MapReduce 命令 还 有 很 多 可 选 的 键 。 


SS 
绰 
千 
仔 
[ou 


。 "finalize": 国 数 
将 reduce 的 结果 发 送 给 这 个 键 ， 这 是 处 理 过 程 的 最 后 一 步 。 





。 "keeptemp" :布尔 





连接 关闭 时 临时 结果 集合 是 否 保存 。 


。 "output" :字符 串 
结果 集合 的 名 字 。 设 定 该 项 则 隐 含 着 keeptemp : true。 


. "query" : 文档 
会 在 发 往 map 函数 前 ， 先 用 指定 条 件 过 滤 文 档 。 





voort" :文档 
在 发 往 map 前 先 给 文档 排序 (与 1imit 一 同 使 用 非常 有 用 ) 。 


。 "limitn :整数 


发 往 map 函数 的 文档 数量 的 上 限 。 


“ ageope" :文档 
JavaScript 代码 中 要 用 到 的 变量 。 


。 "verbose" :布尔 


是 否 产生 更 加 详尽 的 服务 器 日 志 。 


1.finalize 函 数 
和 group 命令 一 样 ，MapReduce 也 可 以 使 用 finalize 国 数 作为 参数 。 它 会 在 最 后 
reduce 得 到 输出 后 执行 ， 然 后 将 结果 存 到 临时 集合 中 。 


体积 大 点 的 结果 对 MapReduce 来 说 还 好 ， 因 为 不 像 group 那样 有 4 MB 的 限制 。 
然而 ， 无 论 如 何 信息 还 是 要 传递 的 ， 所 以 finalize 就 是 一 个 计算 平均 数 、 裁 剪 数 
组 、 清 除 多 余 信 息 的 恰当 时 机 。 


2. 保留 结果 集合 

默认 情况 下 ，Mongo 会 在 执行 MapReduce 的 时 候 创 建 一 个 临时 集合 ， 集 合 名 是 系统 选 
的 一 个 常人 不 太 会 用 的 名 字 ， 其 中 含有 mr， 执行 MapReduce 的 集合 名 ， 时 间 戳 ， 数 
据 库 作业 ID， 将 这 些 用 “.” 连 成 一 个 字符 串 。 结 果 产 生 形 如 “mr.stuff.18234210220.2” 
这 样 的 名 字 。MongoDB 会 在 调用 的 连接 关闭 时 自动 销毁 这 个 集合 (也 可 以 在 用 完 之 后 
手动 删除 )。 如 果 想 保留 这 个 集合 ， 就 要 指定 keeptemp 为 true。 


如 果 要 经 常 使 用 这 个 临时 集合 ， 没 准 想 给 它 起 个 好 点 的 名 字 。 利 用 out 选项 (该 选 
项 接受 字符 串 作 为 参数 ) 就 可 以 指定 一 个 人 类 易 懂 的 名 字 。 如 果 用 了 out 选项 ， 就 
不 必 指 定 keeptemp : true 了 ， 因 为 已 经 隐 含 在 其 中 了 。 即 便 起 了 一 个 非常 好 的 
名 字 ，MongoDB 也 会 在 MapReduce 的 中 间 过 程 使 用 自动 生成 的 集合 名 。 处 理 完 成 














后 ， 自 动 更 改 成 指定 的 名 字 ， 这 个 过 程 是 原子 的 。 也 就 是 说 ， 如 果 多 次 对 同一 个 集 
合 调用 MapReduce， 也 不 会 出 现 使 用 不 完整 集合 的 情况 。 











MapReduce 产生 的 集合 就 是 一 个 普通 的 集合 ， 在 其 上 执行 MapReduce 一 点 问题 也 
没有 ， 或 者 在 前 一 个 MapReduce 的 结果 上 执行 MapReduce 也 没有 问题 ， 如 此 往复 
直到 无 穷 都 没 问 题 ! 








3. 对 文档 子 集合 执行 MapReduce 
有 时 候 需 要 对 集合 的 一 部 分 执行 MapReduce。 只 需要 在 传 给 map 函数 前 添加 一 个 查 
询 来 过 滤 一 下 文档 就 好 了 。 


每 个 传递 给 map 函数 的 文档 都 要 事先 反 序 列 化 ， 从 BSON 转换 成 JavaScript 对 象 ， 
这 个 过 程 非常 耗资 源 。 要 是 事先 能 确定 只 对 集合 的 一 部 分 文档 执行 MapReduce， 增 
加 一 层 过 滤 会 极 大 地 提高 速度 。 过 滤 也 无 非 就 是 用 "query"、 "limit" 和 "sortn 
键 指定 的 。 


"query" 键 的 值 是 一 个 查询 文档 。 通 常 查询 返回 的 结果 就 传递 给 了 map 函数 。 例 
如 ， 有 个 应 用 程序 做 跟踪 分 析 ， 需 要 上 周 的 概要 ， 只 要 使 用 如 下 命令 对 上 周 的 文档 
执行 MapReduce 就 好 了 : 





























> dqb .runCcommand ({"mapreduce" : "analytics", "map" : map, "reduce" : reduce, 
"query" : {"date" : {"$gt" : week ago}}}) 


sort 选项 一 般 和 limit 一 同 发 挥 重 要 作用 。1imit 也 可 以 单独 使 用 ， 用 来 截取 一 
部 分 文档 发 送 给 map 国 数 。 





如 果 在 上 个 例子 中 想 分 析 最 近 10 000 个 页 面 视 
助 1imit 和 sort: 





网 


(而 不 是 最 近 一 周 的) ， 则 可 以 借 


> dqb .runCcommand ({"mapreduce" : "analytics", "map" : map, "reduce" : reduce, 
"limit" : 10000, "sort" : {"date" : -1}}) 


query、1limit、sort 可 以 随意 组 合 ， 但 要 是 没有 1imit，sort 单独 使 用 的 用 处 不 大 。 


4. 使 用 作用 域 

MapReduce 可 以 为 map、reduce、finalize 函数 都 采用 一 种 代码 类 型 。 但 多 数 
语言 里 ， 可 以 指定 传递 代码 的 作用 域 。 然 而 MapReduce 会 忽略 这 个 作用 域 。 它 有 
其 自己 的 作用 域 键 "scope"， 如 果 想 在 MapReduce 中 使 用 客户 端的 值 ， 则 必须 使 
用 这 个 参数 。 可 以 用 “变量 名 : 值 ”这 样 的 普通 文档 来 设置 该 选项 ， 然 后 在 map、 
reduce 和 finalize 国 数 中 就 能 使 用 了 。 作 用 域 在 这 些 函 数 内 部 是 不 变 的 。 








例如 ， 在 上 一 节 的 例子 中 ,用 1/ (new Date() - this.date) 计算 了 页 面 的 新 近 
程度 。 还 可 以 将 当前 日 期 作为 作用 域 的 一 部 分 传递 进去 : 


> db.runCommand ({"mapreduce" : "webpages"，"map" : map, "reduce'" : reduce, 
"scope" : {now : new Date()}}) 


这 样 ， 在 map 函数 中 就 能 计算 1/ (now - this.date) 了 。 
5. 获得 更 多 的 输出 
还 有 个 用 于 调试 的 详细 输出 选项 。 如 果 想 看 看 MapReduce 的 运行 过 程 ， 可 以 用 


"verbose'": true。 


也 可 以 用 print 把 map、reduce、finalize 过 程 中 的 信息 输出 到 服务 器 日 志 





第 7 章 
进 阶 指南 





MongoDB 支持 一 些 先前 没有 讨论 的 高 级 功能 。 要 想 成 为 高 级 用 户 ， 一 定 得 看 看 本 
章 ， 本 章 具 体会 涵盖 下 列 主题 。 


。 通过 数据 库 命令 使 用 高 级 特性 。 

。 使 用 一 种 特殊 的 集合 一 一 固定 大 小 的 集合 。 
。 使 用 GridFS 存储 大 文件 。 

。 利用 MongoDB 对 服务 端 JavaScript 的 支持 。 
。 理解 何 为 数据 库 引 用 ， 何 时 该 使 用 。 


7.1 数据 库 命 令 
前 面 的 章节 讲 到 了 如 何在 MongoDB 中 创建 、 读 取 、 更 新 、 删 除 文档 。 除 了 这 些 


基本 操作 ，MongoDB 还 支持 大 量 的 高 级 操作 ， 这 些 操作 都 是 用 命令 实现 的 。 除 了 
“创建 、 读 取 、 更 新 和 删除 "， 其 他 的 功能 都 是 作为 命令 实现 的 。 


前 面 的 章节 已 经 涵盖 了 一 些 命 令 。 例 如 ， 第 3 章 讲 了 使 用 getLastError 来 查看 一 
个 更 新 对 多 少 个 文档 起 作用 : 


> db.count.update({x : 1}, {$inc : {x : 1}}, false, true) 











> db.runCommand ({getLastError : 1}) 
Wer # nll;, 
"updatedExisting" : true, 
nn = 
ok true 


本 市 会 深入 研究 命令 究竟 是 什么 ， 它 们 是 如 何 实现 的 。 还 会 介绍 一 些 MongoDB 中 
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7.1.1 命令 的 工作 原理 
熟悉 命令 drop: 要 在 shell 中 删除 一 个 集合 ， 执 行 db .test.darop () 。 
在 幕后 ， 这 个 函数 实际 运行 的 是 drop 命令 ， 可 以 用 runcommand 来 达到 完全 一 样 的 








> db.runCommand ({"drop" : "test")) ; 
"nIndexesWas" : 1, 
"msg" : "indexes dropped for collection", 
i 
vok" 3 true 


} 
命令 的 响应 是 作为 结果 的 一 个 文档 ， 包 含 了 命令 是 否 成 功 执行 ， 还 可 能 有 些 其 他 的 
命令 输出 的 信息 。 命 令 的 响应 应 该 总 是 有 "ok" 这 个 键 。 如 果 "ok" 的 值 是 true， 
代表 命令 成 功 执行 ， 如 果 为 fal1se， 就 代表 命令 执行 出 了 某 些 问题 。 


并 人 
， 
、 








4 15 及 之 前 的 版 本 ，"ok" 的 值 是 1.0 或 者 00， 而 不 是 true 和 false。 


， 
4 





如 果 "ok" 为 false， 还 会 有 另外 的 一 个 叫 "errmsg" 的 键 。"errmsg" 的 值 为 
一 个 字符 串 ， 表 示 命 令 失败 的 原因 。 例 如 ， 如 果 对 刚刚 删除 的 集合 再 次 运行 drop 


分 人 
命令 : 
> db.runCommand ({"drop" : "test"})); 
{ "errmsg" : "ns not found", "ok" : false } 





MongoDB 中 的 命令 其 实 是 作为 一 种 特殊 类 型 的 查询 来 实现 的 ， 这 些 查 询 针 对 $cma 
集合 来 执行 。runcommand 仅仅 是 接受 命令 文档 ， 执 行 等 价 查询 ， 因 此 drop 调用 
实际 上 是 这 样 的 : 

db.S$cmd.findqone({"dqrop" : "test"}); 
当 MongoDB 服务 器 得 到 查询 $cmd 集合 的 请 求 时 ， 会 启动 一 套 特 殊 的 逻辑 来 处 理 ， 
而 不 是 交 给 普通 的 查询 代码 来 执行 。 几 乎 所 有 MongoDB 驱动 程序 都 提供 一 个 类 似 
于 runcommanad 的 帮助 方法 来 执行 命令 ， 但 是 如 果 有 必要 ， 总 是 可 以 使 用 一 个 简单 
查询 的 方式 来 运行 命令 。 
访问 有 些 命令 需要 有 管理 员 权 限 ， 必 须 在 admin 数据 库 里 面 运 行 。 如 果 在 别 的 数据 
库 里 运行 这 样 的 命令 ， 会 得 到 “拒绝 访问 ”的 错误 。 
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7.1.2 命令 参考 


本 书写 作 时 ，MongoDB 支持 超过 75 个 命令 ， 而 且 今后 会 有 更 多 命令 的 。 要 获得 
所 有 命令 的 最 新 列表 ， 有 两 种 方式 。 





。 在 shell 中 运行 db.1istcommands () ， 或 者 从 驱动 程序 中 运行 等 价 的 命令 1ist- 


Commands。 


。 浏览 管理 员 接 口 http://localhost:28017/_commands (关于 管理 员 接 口 详 见 第 8 章 )。 








下 面 列举 了 MongoDB 中 最 经 常 使 用 的 命令 ， 并 给 出 了 示例 文档 ， 以 说 明 这 些 命令 
是 如 何 表示 的 。 
。 buildInfo 


{"buildInfo" : 1} 


管理 专用 命令 ， 返回 MongoDB 服务 器 的 版 本 号 和 主机 的 操作 系统 。 





。 collSstats 


{"eollSstates, : Collecdtion} 


返回 指定 集合 的 统计 信息 ， 包 括 数 据 大 小 、 已 分 配 的 存储 空间 和 索引 的 大 小 。 


。 distinct 


{"distinct" : collection, "key": key, "query": query} 


列 出 指定 集合 中 满足 查询 条 件 的 文档 的 指定 键 的 所 有 不 同 值 。 


。 drop 
{"drop" : collection} 
删除 集合 的 所 有 数据 。 


。 dropDatabase 


{"dropDatabase" : 1} 


删除 当前 数据 库 的 所 有 数据 。 


。 droplIndexes 


{"dropIndexes" : collection, "index" : name} 


删除 集合 里 面 名 称 为 name 的 索引 ， 如 果 名 称 为 "*"， 则 删除 全 部 索引 。 


。 findAndModify 
findAndModify 的 用 法 详 见 第 3 章 。 





译注 1: 到 2011 年 4 月 ， 已 经 有 103 个 命令 了 。 














。 getLastError 








{"getLastError" : 1[, "w" : w[, "wtimeout" : timeout]]} 

查看 对 本 集合 执行 的 最 后 一 次 操作 的 错误 信息 或 者 其 他 状态 信息 。 在 w 台 服务 
器 复制 集合 的 最 后 操作 之 前 ， 这 个 命令 会 阻塞 (超时 的 毫秒 数 到 了 )。 

。 isMaster 

{"isMaster" : 1} 

检查 本 服务 器 是 主 服务 器 还 是 从 服务 器 。 

。 listCommands 

{"listCommands" : 1} 

返回 所 有 可 以 在 服务 器 上 运行 的 命令 及 相关 信息 。 

。 listDatabases 

{"listDatabases" : 1} 

管理 专用 命令 ， 列 出 服务 器 上 所 有 的 数据 库 。 

。 ping 

{rping" : 1] 

检查 服务 器 链接 是 否 正常 。 即 便服 务 器 上 锁 了 ， 这 条 命令 也 会 立刻 返回 。 

。 renameCollection 

{"renameCollection" : a, "to" : pb} 

将 集合 a 重 命名 为 bp， 其 中 a 和 bb 都 必须 是 完整 的 集合 命名 空间 (例如 "foo0. 

bar" 表示 foo 数据 库 中 的 par 集合 )。 

。 repairDatabase 

{"repairDatabase" : 1} 

修复 并 压缩 当前 数据 库 ， 这 个 操作 可 能 非常 耗 时 。 详 见 8.4.5 节 。 

。 serverStatus 

{"serverSstatus" : 1} 
回 这 台 服 务 器 的 管理 统计 信息 。 详 见 8.2 市 。 

要 记 住 ， 上 面 列举 的 只 是 一 小 部 分 命令 。 本 书后 面 还 会 涉及 一 些 ， 要 查看 完整 的 列 


表 ， 只 要 运行 1istcommands 就 可 以 了 。 





7.2 固定 集合 


前 面 已 经 介绍 了 ，MongoDB 如 何 动态 建立 普通 集合 ， 如 何 应 对 增长 的 数据 自动 调整 
大 小 。MongoDB 还 支持 另外 一 种 集合 固定 集合 ， 要 事先 创建 ， 而 且 大 小 固定 
(参见 图 7-1)。 固 定 大 小 的 集合 带 来 个 有 趣 的 问题 ， 如 何 向 一 个 满 的 固定 集合 插入 数 
据 呢 ? 答案 是 固定 集合 很 像 环 形 队 列 ， 如 果 空 间 不 足 ， 最 早 的 文档 就 会 被 删除 ， 为 新 
的 文档 腾 出 空间 (参见 图 7-2)。 这 意味 着 固定 集合 在 新 文档 插入 的 时 候 自 动 淘 汰 最 早 
的 文档 。 



































图 7-1: 插入 新 文档 到 队 尾 














图 7-2: 当 队 列 满 了 ， 新 的 元 素 会 将 最 早 的 元 素 蔡 换 掉 
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有 些 操 作 不 适用 于 固定 集合 。 不 能 删除 文档 (除了 前 面 所 说 的 自动 淘汰 )， 更 新 
不 得 导致 文档 移动 (通常 更 新 意味 着 尺寸 增 大 )。 基 于 上 述 两 点 ， 可 以 保证 在 固 
定 集合 中 的 文档 以 插入 的 顺序 存储 ， 而 且 不 必 维 护 一 个 已 删除 的 文档 的 释放 空间 

列表 。 


固定 集合 和 普通 集合 还 有 一 个 区 别 ， 就 是 在 默认 情况 下 固定 集合 没有 索引 ， 即 便 是 
" id" 上 也 没有 索引 。 











7.2.1 属性 及 用 法 

固定 集合 的 功能 与 限制 合 二 为 一 ， 给 我 们 带 来 了 些 有 趣 的 特性 。 ， 对 固定 集合 
进行 插入 速度 极 快 。 做 插入 操作 时 ， 无 需 额 外 分 配 空间 ， 服 务 器 | 
表 来 放置 文档 。 直 接 将 文档 插入 集合 的 “末尾 ”就 好 了 ， 如 有 必要 就 将 旧 的 覆盖 。 
默认 情况 下 插入 也 无 需 更 新 索引 ， 所 以 插入 实际 上 是 一 个 简单 的 memcpPy。 


第 二 个 有 趣 的 属性 就 是 按照 插入 顺序 输出 的 查 0 因为 文档 本 身 就 是 按照 
播 入 顺序 存储 的 ， 按 照 这 个 顺序 查询 就 是 遍历 一 下 ， 返 回 结果 的 顺序 就 是 文档 在 磁 
tt De er eth 吉 采 。 


最 后 一 个 属性 ， 固 定 集合 能 够 在 新 数据 插入 时 ， 自 动 淘 汰 最 早 的 数据 。 插 入 快速 、 
按照 插入 顺序 查询 也 快速 、 自 动 淘汰 ， 这 几 样 组 合 起 来 使 得 固定 集合 特别 适合 像 日 
志 这 种 应 用 场景 。 事 实 上 ，MongoDB 中 设计 固定 集合 的 目的 就 是 用 来 存储 内 部 的 
复制 日 志 oplog (关于 复制 和 oplog， 详 见 第 9 章 )。 固 定 集合 还 有 个 很 好 的 用 法 ， 
就 是 缓存 少量 的 文档 。 一 般 来 说 ， 固 定 集 合适 用 于 任何 想 要 自动 询 汰 过 期 属性 的 场 
景 ， 没 有 大 多 的 操作 限制 。 














7.2.2 ”创建 固定 集合 


不 像 普通 集合 ， 固 定 集合 必须 要 在 使 用 前 显 式 地 创建 。 使 用 create 命令 创建 。 在 
shell 中 ， 可 以 使 用 createcollection 来 创建 





> db.createCollection("my collection", {capped: true, size: 100000}); 
{ "ok" : true } 


上 面 的 命令 创建 了 一 个 固定 集合 my_collection， 大 小 是 100 000 字 节 。create- 
Collection 也 有 些 别 的 选项 。 除 了 指定 总 的 容量 ， 还 可 以 指定 文档 数量 的 上 限 : 
> db.createCollection("my collection", {capped: true, size: 100000， 


max: 100}); 
{ "ok" : true } 





当 指 定 文档 数量 上 限时 ， 必 须 同 时 指定 大 小 。 淘 汰 机 制 只 有 在 容量 还 没有 
a 满 时 才 会 依据 文档 数量 来 工作 。 要 是 容量 满 了 ， 淘 汰 机 制 则 会 依据 容量 来 
全 。 工作 ， 就 像 别 的 固定 集合 一 样 。 





























还 可 以 通过 转换 已 有 的 普通 集合 的 方式 来 创建 固定 集合 。 使 用 convertTocapped 命令 
来 完成 这 个 操作 。 下 面 的 例子 中 ,会 把 test 集合 转换 成 大 小 为 10 000 字 节 的 固定 集合 。 


> db.runCommand ({convertToCapped: "test", size: 10000}); 
{ "ok" : true } 


7.2.3 自然 排序 


国定 集合 有 种 特殊 的 排序 方式 ， 叫 做 自然 排序 。 自 然 顺 序 就 是 文档 在 磁盘 上 的 顺序 
( 见 图 7-3)。 














因为 固定 集合 的 文档 总 是 按照 插入 的 顺序 存储 的 ， 自 然 顺序 就 是 与 此 相同 的 。 前 面 
讲 到 过 ， 在 默认 情况 下 ， 查 询 固定 集合 后 就 是 按照 插入 顺序 返回 文档 。 也 可 以 使 用 
自然 排序 按照 反 向 插入 的 顺序 查询 ( 见 图 7-4)。 





> db.my_ collection.find().sort({"$natural": -1}) 














图 7-3: 按照 {"$natural" : 1} 排序 


使 用 {"$natural": 1} 表示 与 默认 顺序 相同 。 非 固定 集合 不 能 保证 文档 按照 特定 
顺序 存储 ， 所 以 自然 顺序 的 意义 不 大 。 























7-4: 按照 {"$natural":-1} 排序 


7.2.4 ”尾部 游标 

尾部 游标 是 一 种 特殊 的 持久 游标 ， 这 类 游标 不 会 在 没有 结果 后 销毁 。 游 标 受到 tail 
-E 命令 的 启发 ， 类 似 地 会 尽 可 能 持续 地 获取 结果 输出 。 因 为 这 类 游标 在 没有 结果 后 
也 不 销毁 ， 所 以 一 旦 有 新 文档 添加 到 集合 里 面 就 会 被 取 回 并 输出 。 尾 部 游标 只 能 用 
在 固定 集合 上 。 


可 惜 Mongo shell 并 不 支持 尾部 游标 ， 但 是 可 以 看 看 PHP 中 的 例子 : 














Scursor = $collection->find()->tailable(); 


while (true) { 


if (!$cursor->hasNext()) { 
if ($cursor->dead()) { 
break; 
} 
sleep (1); 
} 
else { 
while (cursor->hasNext ()) { 


do_stuff (cursor->getNext () ) ; 


} 
} 
游标 没有 销毁 ， 要 么 处 理 结果 ， 要 么 等 着 有 更 多 的 结果 。 








7.3 GridFS: 存储 文件 


GridFS 是 一 种 在 MongoDB 中 存储 大 二 进 制 文件 的 机 制 。 使 用 GridFS 存 文 件 有 如 
下 几 个 原因 。 


。 利用 GridFS 可 以 简化 需求 。 要 是 已 经 用 了 MongoDB ，GridFS 就 可 以 不 需要 使 用 
独立 文件 存储 架构 。 

。 GridFS 会 直接 利用 业已 建立 的 复制 或 分 片 机 制 ， 所 以 对 于 文件 存储 来 说 故障 恢复 
和 扩展 都 很 容易 。 

。 GridFS 可 以 避免 用 于 存储 用 户 上 传 内 容 的 文件 系统 出 现 的 某 些 问题 。 例 如 ，GridFS 
在 同一 个 目录 下 放置 大 量 的 文件 是 没有 任何 问题 的 。 

。 GridFS 不 产生 磁盘 碎片 ， 因 为 MongoDB 分 配 数据 文件 空间 时 以 2 GB 为 一 块 。 














7.3.1 开始 使 用 GridFS: mongofiles 


最 简单 的 开始 使 用 GridFS 的 方法 就 是 利用 mongofiles 实用 程序 。mongofiles 内 
置 在 MongoDB 发 布 版 中 ， 可 以 用 来 在 GridFS 中 上 传 、 下 载 、 列 示 、 查 找 或 删除 文 
件 。 像 其 他 命令 行 工具 一 样 ， 执 行 mongofiles --help 可 以 查看 可 用 选项 。 下 面 
将 会 介绍 如 何 用 mongofiles 从 文件 系统 问 GridFS 上 传 文件 ， 列 出 GridFS 中 的 所 
有 文件 ， 下 载 刚 上 传 的 文件 。 


$ echo "Hello, world" > foo.txt 

$ ./mongofiles put foo.txt 

Connected tO: T2700,L 

added file: { id: ObjectId('4c0d2a6c3052c25545139b88')， 
filename: "foo.txt", length: 13, chunkSize: 262144, 
uploadDate: new Date(1275931244818) ， 
md5: "a7966bf58e23583c9a5a4059383ff850" } 





done! 

$ ./mongofiles list 
Connected Lo: 127.0..0,1 
fOO: tL 

$$ Em 王 训 Ge 七 七 

$ ./mongofiles get foo .txXt 
connected to: 127.0.0.1 
done write to: foo.txt 

外 cat foo0.txt 

Hello, world 


上 面 的 例子 中 ,使 用 了 mongofiles 的 3 个 基本 操作 : put、list 和 get。put 将 文 
件 系统 中 的 一 个 文件 添加 到 GridFS 中 ，1ist 会 把 所 有 添加 到 GridFS 中 的 文件 列 出 
来 ，get 则 是 put 的 逆 操 作 ， 它 将 GridFS 中 的 文件 写 入 到 文件 系统 中 。mongofiles 
还 支持 另外 两 个 操作 : search 用 来 按 文件 名 查找 GridFS 中 的 文件 ，delete 则 从 
GridFS 中 删除 一 个 文件 。 








7.3.2 ”通过 MongoDB 了 驱动 程序 操作 GridFS 

前 面 已 经 看 到 ， 使 用 命令 行 操作 GridFS 十 分 简便 ， 使 用 MongoDB 驱动 程序 也 一 
样 简便 。 例如， 使 用 MongoDB 的 Python 驱动 程序 PyMongo， 可 以 实现 上 面 用 
mongofiles 执行 的 一 系列 操作 : 


>>> from pymongo import Connection 
>>> import gridfs 


>>> db = Connection() .test 
535: £8 = gridfs:GrideFs.(db) 
535 file id = f8.put("Hello, world", filename="f0O0.txt'") 


Ss F611iBt {} 

[u'foo.txt'] 

>>> fs.get (file id).read() 

'Hello, world' 
PyMongo 中 操作 GridFS 的 API 与 mongofiles 的 API 十 分 类 似 ， 都 可 以 很 容易 地 
执行 基本 的 put、get 和 1ist 操作 。 差 不 多 所 有 MongoDB 的 驱动 程序 与 GridFS 
打交道 都 遵循 这 个 基本 的 模式 ， 一 般 还 会 提供 一 些 高 级 的 功能 。 要 想 了 解 与 GridFS 
有 关 的 驱动 程序 特有 的 信息 ， 就 得 查看 你 所 使 用 的 驱动 程序 的 文档 了 。 


7.3.3 内 部 原理 

GridFS 是 一 个 建立 在 普通 MongoDB 文档 基础 上 的 轻 量 级 文件 存储 规范 。MongoDB 
服务 器 实际 上 对 GridFS 请 求 没 什么 特别 照顾 ， 所 有 相关 工作 都 由 客户 端 驱动 或 者 工 
有 具 来 完成 。 


GridFS 的 一 个 基本 思想 就 是 可 以 将 大 文件 分 成 很 多 块 ， 每 块 作为 一 个 单独 的 文档 存 
储 ， 这 样 就 能 存 大 文件 了 。 由 于 MongoDB 支持 在 文档 中 存储 二 进 制 数据 ， 可 以 最 
大 限度 减 小 块 的 存储 开销 。 另 外 ， 除 了 存储 文件 本 身 的 块 ， 还 有 一 个 单独 的 文档 用 
来 存储 分 块 的 信息 和 文件 的 元 数据 。 


GridFS 的 块 有 个 单独 的 集合 。 默 认 情 况 下 ， 块 将 使 用 fs .chunks 集合 ， 如 有 需要 
可 以 覆盖 。 这 个 块 集合 里 面 文档 的 结构 是 非常 简单 的 : 











{ 


vd sO0bBJeetIad( TE 

mm 0 

ndata" ; BinDatal("..."), 
"filLes: Le" OBJectLrd( ,0 ™) 


} 


和 别 的 MongoDB 文档 一 样 ， 块 也 有 自己 唯一 的 "idq"。 另 外 ， 还 有 些 别 的 键 。 
"files_id" 是 包含 这 个 块 元 数据 的 文件 文档 的 " ia"。"n" 表示 块 编 号 ， 也 就 是 这 
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个 块 在 原文 件 中 的 顺序 编号 。 最 后 ，"data" 包含 组 成 文件 块 的 二 进 制 数据 。 


文件 的 元 数据 放 在 另 一 个 集合 中 ， 默 认 是 fs.files。 这 里 面 的 每 个 文档 代表 GridFS 
中 的 一 个 文件 ， 与 文件 相关 的 自 定义 元 数据 也 可 以 存在 其 中 。 除 了 用 户 自 定义 的 键 ， 
GridFS 规范 还 定义 了 一 些 键 。 

。 id 

文件 唯一 的 ta， 在 块 中 作为 "files_ia" 键 的 值 存储 。 

。 .length 

文件 内 容 总 的 字 节 数 。 


。 chunkSize 


每 块 的 大 小 ， 以 字 节 为 单位 。 默 认 是 256 K， 必 要 时 可 以 调整 。 


。 uploadDate 

文件 存 和 人 GridFS 的 时 间 惟 。 

。 madq5 

文件 内 容 的 md5 校 验 和 ， 由 服务 器 端 生成 。 
在 所 有 必需 的 键 中 ， 最 有 趣 的 (或 者 说 最 不 太 好 理解 的 ) 就 是 这 个 "md5" 了 。 
"mda5" 的 值 是 由 服务 器 端 用 filemds 命令 生成 的 ， 用 于 计算 上 传 块 的 md5 校 验 和 。 
也 就 意味 着 用 户 可 以 检验 "ma5" 键 的 这 个 值 ， 确 保 文 件 正 确 上 传 了 。 


理解 了 GridFS 规范 以 后 ， 实 现 一 些 驱 动 程序 没有 提供 的 功能 就 很 容易 了 。 例 如 ， 可 
使 用 aistinct 命令 获取 GridFS 中 不 重复 的 文件 名 列表 。 





> db.fs.files.distinct ("filename") 
[. "£66. EE ] 


7.4 服务 器 端 脚本 


在 服务 器 端 可 以 通过 ab .eval 函数 来 执行 JavaScript 脚本 。 也 可 以 把 JavaScript 脚 
本 保存 在 数据 库 中 ， 然 后 在 别 的 数据 库 命 令 中 调用 。 


7.4.1 db.eval 


利用 ab .eval 可 以 在 MongoDB 的 服务 器 端 执行 任意 的 JavaScript 脚本 。 这 个 函数 
先 将 给 定 的 JavaScript 字符 串 传送 给 MongoDB (在 这 里 执行 )， 然 后 返回 结果 。 


db.eval 可 以 用 来 模拟 多 文档 事务 : db .eval 锁 住 数据 库 ， 然 后 执行 JavaScript， 再 
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解锁 。 虽 然 没 有 内 置 的 回 滚 机 制 ， 但 这 的 确 能 保证 一 系列 操作 按照 指定 顺序 发 生 〈 除 
非 出 错 ) 。 


发 送 代 码 有 两 种 选择 ， 或 者 封装 进 一 个 函数 ， 或 者 不 封闭。 下面 两 行 代码 是 等 价 的 : 


> db.eval ("return 1;") 

让 

> db.eval ("function() { return 1; }") 
和 


只 有 传递 参数 的 时 候 ， 才 必须 要 封装 成 一 个 函数 。 参 数 通过 db .eval 的 第 二 个 参数 
传递 ， 要 写成 一 个 数组 的 形式 。 例 如 ， 如 果 想 给 一 个 函数 传递 username， 可 以 这 
么 做 : 














> db.eval ("function(u) { print('Hello, '+u+'!'); }", [username]) 
有 必要 的 话 可 以 传递 多 个 参数 。 例 如 ， 要 计算 3 个 数 的 和 ， 可 以 这 样 : 
> db.eval ("function (x,y,2) { return x +y+ 2; } [numl, num2, num3]) 


numl 对 应 x，num2 对 应 y，num3 对 应 z。 如 果 想 使 用 可 变数 量 的 参数 ， 调 用 函数 
时 JavaScript 会 把 参数 存 成 一 个 数组 。 

dp .eval 的 表达 式 要 是 复杂 的 话 ， 调 试 起 来 就 需要 些 技 巧 了 。JavaScript 脚本 在 数 
据 库 上 执行 ， 通常 在 出 错 信 息 0 号 。 调 试 的 一 个 好 方法 就 是 将 
调试 信息 写 进 数据 库 日 志 这 个 可 以 通 过 print 国 函数 来 完成 : 


> db.eval("print ('Hello, world');"); 


7.4.2 ”存储 JavaScript 


每 个 MongoDB 的 数据 库 中 都 有 个 特殊 的 集合 ， 叫 做 system.js， 用 来 存放 JavaScript 变 
量 。 这 些 变量 可 以 在 任何 MongoDB 的 JavaScript 上 下 文中 调用 ， 包 括 "$swhere" 子 
名 ，dqb .eval 调用 ，MapReduce 作业 。 用 insert 就 可 以 将 变量 加 进 system.js 中 。 


> qb.system.js.insert({" id" : "x", "value" : 1}) 
> db.system.js.insert({" id" : "y", "value" : 2}) 
> db.system.js.insert({" id" : "z", "value" : 3}) 





上 例 在 全 局 作用 域 中 定义 了 x、y、z。 现 在 要 是 想 对 其 求 和 ， 可 以 这 样 : 


> db.eval ("return x+y+2;") 
6 


除了 一 些 简 单 的 值 ，system.js 也 可 以 用 来 存放 JavaScript 代码 。 这 样 就 可 以 很 方便 
地 自 定义 一 些 实用 程序 。 例 如 ， 要 用 JavaScript 写 一 个 日 志 国 数 ， 就 可 以 将 其 存放 








到 system.js 中 : 


> db.system.js.insert ({" _ id" : "log", "value" : 
. function(msg, level) { 
var levels = ["DEBUG", "WARN", "ERROR", "FATAL"]; 


level level ? level : 0; 
Var now = new Date(); 


print (now + " " + levels[levell] 


. 卫 
现在 ， 








> db.eval ("x 


数据 库 日 志 会 含有 类 似 下 面 这 样 的 内 容 : 


三 : Ty Log("Xx 18 V+¥); = 


2} 





Fri Jun 11 2010 11:12:39 GMT 
Fri Jun 11 2010 11:12:40 GMT 


-0400 
-0400 


(EST) 
(EST) 








log('x is greater than 1', 


// check if level is defined 


+ msg); 


可 以 在 任意 的 JavaScript 程序 中 调用 这 个 函数 : 


DEBUG x is 1 
WARN x is greater than 1 


使 用 存储 的 JavaScript 缺点 就 是 代码 会 与 常规 的 源 代码 控制 脱离 ， 会 搅乱 客户 端 发 


送 来 的 JavaScript。 


最 适合 使 用 存储 的 JavaScript 的 情况 就 是 程序 中 有 多 个 地 方 (也 可 能 是 


或 者 不 同 语 言 的 代码 ) 都 要 用 到 一 个 JavaScript 国 


不 同 的 程序 ， 
函数 。 将 这 样 的 函数 放置 在 中 心 位 





置 ， 要 是 有 更 新 的 话 就 可 以 不 必 每 处 都 修改 。 要 是 JavaScript 代码 很 长 又 要 频繁 使 


用 的 话 ， 也 可 以 使 用 存储 的 JavaScript， 这 样 存 一 


7.4.3 ”安全 性 


执行 JavaScript 代码 ， 就 必须 要 谨慎 考虑 MongoDB 的 安全 性 。 使 用 不 慎 ， 
生 类 似 于 关系 型 数据 库 的 注入 式 攻击 。 好 在 我 们 能 比较 容易 地 避免 这 些 ， 安 全 


用 JavaScript。 


会 节省 不 少 网 络 传输 时 间 。 


就 会 发 
地 使 


若是 想 打 印 “Hello, 用 户 名 ! ”给 用 户 。 其 中 的 用 户 名 保存 在 一 个 名 为 username 


的 变量 中 。 可 以 像 下 面 这 样 写 这 段 程序 : 


> func = "function() { print('Hello, "+username+"!'); }" 
如 果 username 是 用 户 定义 的 ， 就 可 能 会 是 这 样 的 字符 串 "， db .dropData 


base(); print ('"， 这样 代 码 就 成 了 下 面 这 样 : 


> func = "function!() { BrEint(THelLlo; ")s 
二 
整个 数据 库 都 被 清 干净 了 ! 


db.dropDatabase(); print('!'); 
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为 了 避免 这 种 情况 ， 要 限定 作用 域 。 例 如 ， 在 PHP 中 应 该 像 这 样 写 : 


$func = new MongoCode ("function() { print ('Hello, "+username+"!'); Pa 
. array ("username" => $username)),; 


数据 库 就 会 安全 地 输出 如 下 字符 : 
Hello, '); db.dropDatabase(); print('! 
绝 大 多 数 驱 动 程序 都 为 传递 给 数据 库 的 代码 提供 一 种 特殊 类 型 ， 这 是 因为 代码 实际 上 可 


以 看 成 是 一 个 字符 串 和 一 个 作用 域 的 组 合 。 作 用 域 无 非 就 是 一 个 保存 着 变量 名 和 值 映射 
关系 的 文档 。 当 JavaScript 函数 执行 的 时 候 ， 这 种 映射 就 构成 了 函数 的 局 部 作用 域 。 




















shell 没有 含有 作用 域 的 代码 类 型 ， 只 能 对 其 使 用 字符 串 或 者 JavaScript 函数 。 








7.5 数据 库 引 用 


可 能 MongoDB 最 鲜 为 人 知 的 功能 就 是 数据 库 引 用 了 ， 也 叫做 DBRef。DBRef 就 像 
URL， 唯 一 确定 一 个 到 文档 的 引用 。 它 自动 加 载 文档 的 方式 正如 网 站 中 URL 通过 链 
接 自 动 加 载 Web 页 面 一 样 。 











7.5.1 什么 是 DBRef 
DBRef 是 个 内 向 文档 ， 就 像 MongoDB 中 的 其 他 内 舱 文 档 一 样 。 但 是 DBRef 有 些 必 
选 键 。 下 面 是 个 简单 的 例子 : 

{"$ref" : collection, "$id" : id value} 
DBRef 指向 一 个 集合 ， 还 有 一 个 ia_value 用 来 在 集合 里 面 根据 "_ig" 确定 唯一 的 
文档 。 这 两 条 信息 使 得 DBRef 能 唯一 标识 MongoDB 数据 库 内 的 任何 一 个 文档 。 若 
是 想 引 用 另 一 个 数据 库 中 的 文档 ，DBRef 中 有 个 可 选 键 "$aqb"， 用 这 个 就 可 以 了 : 











{"$ref" : collection, "$id" : idq value, "$db" : database} 





eg DBRef 中 的 键 的 顺序 不 能 改变 。 第 一 个 必须 是 "sref"， 接 着 是 "$id"， 
《人心 4 、 然后 是 (可 选 的 ) "sab"。 
4 





7.5.2 示例 模式 
来 看 一 个 使 用 DBRef 跨 集合 引用 文档 的 例子 。 本 例 中 含有 两 个 集合 ，users 和 notes。 
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用 户 (user) 可 以 创建 笔记 (note)， 笔 记 可 以 引用 用 户 或 者 别 的 笔记 。 现 在 有 一 些 用 户 文 
档 ， 每 一 个 都 有 唯一 的 用 户 名 作为 其 ws 以 及 一 个 独立 形式 的 "display name": 











' id" : "mike", "display name" : "Mike D"} 

' id" : "kristina", "display name" : "Kristina C"} 

notes 集合 稍微 复杂 一 些 。 每 个 笔记 都 含有 一 个 唯一 的 "_id"。 正 常情 况 下 ， 这 个 
"_id" 很 可 能 是 个 objectID， 但 是 这 里 用 整数 ， 是 为 了 让 例子 简明 ， 突 出 重点 。notes 
还 有 一 个 "author"， 若 干 "text"， 以 及 一 个 可 选 的 "references" 指向 其 他 笔记 或 者 
用 户 : 











{"_id" : 5, "author" : "mike", "text" : "MongoDB is fun!"} 

{™ ia" : 20, "author" : "kristina", "text" : "... and DBRefs are easy, too", 

"references": [{"$ref" : "users", "$id" : "mike"}, {"$ref" : "notes", 
wala 5}l} 


第 二 个 笔记 包含 一 些 对 其 他 文档 的 引用 ， 每 一 条 都 作为 一 个 DBRef 存储 。 应 用 层 的 
程序 会 利用 这 些 DBRef 得 到 用 户 “Mike” 和 笔记 “MongoDB is fun!” 这 两 个 文档 ， 
而 它们 都 是 与 Kristina 的 笔记 关联 的 。 去 引用 是 很 容易 实现 的 。"$ref" 的 值 就 是 要 
查询 的 集合 ， 然 后 使 用 "sia" 键 的 值 ， 获 得 " ia" 的 值 : 


> var note = db.notes.findone({" id" : 20)}):; 
> note.references.forEach (function(ref) { 
. printjson(dbl[ref.S$ref] .findone({" id" : ref.$id})); 
se 
{ "id" : "mike", "display name" : "Mike D" } 
{ "id" : 5, "author" : "mike", "text" : "MongoDB is fun!" } 


7.5.3 ”驱动 对 DBRef 的 支持 


令 人 费解 的 是 不 是 所 有 驱动 程序 都 将 DBRef 作为 普通 的 内 租 文 档 。 一 些 驱 动 程序 为 
DBRef 提供 了 特殊 的 类 型 这样 就 会 和 普通 文档 自动 相互 转换 。 这 主要 是 为 了 开发 
者 提供 便利 ， 因 为 这 样 可 以 忽略 少量 细节 。 例 如 ， 使 用 PyMongo 中 的 DBRef 类 型 
可 以 像 下 面 这 样 表示 上 面 的 例子 : 

















>>> note = {ids 20, "author.s vkEistina, 
rEext nt: Vw Bid DBRefs are asy; oo, 
"references": [DBRef ("users", "mike"), DBRef ("notes", 5)]} 


当 保 存 时 ，DBRef 实例 会 自动 被 转换 成 等 价 的 内 髓 文档 。 当 作为 查询 结果 返回 时 ， 
逆 操 作 也 会 自动 进行 ， 就 又 得 到 了 DBRef 的 实例 。 
一 些 驱动 程序 还 添加 了 别 的 辅助 工具 来 操作 DBRef， 比 如 处 理 去 引用 的 方法 ， 其 至 


提供 当 返 回 结果 包含 引用 时 自动 去 引用 的 机 制 。 这 些 辅助 功能 随 驱动 程序 的 不 同 而 
变化 ， 要 想 知道 最 新 的 信息 ， 需 要 参考 具体 驱动 程序 的 文档 。 











7.5.4 什么 时 候 该 使 用 DBRef 呢 

在 MongoDB 中 表示 这 种 对 其 他 文档 的 引用 关系 ， 并 不 是 非 DBRef 不 可 。 事 实 上 ， 
即便 前 面 的 例子 也 使 用 了 些 不 同 的 机 制 做 引用 : 每 个 笔记 的 "author" 键 仅 存储 
了 author 文档 的 " id" 键 。 没 有 必要 使 用 DBRef， 因 为 已 经 知道 每 个 author 就 是 
users 集合 里 面 的 一 个 文档 。 这 种 类 型 的 引用 以 前 也 出 现 过 : 在 GridFS 的 块 文档 中 
"files_ id" 键 仅 仅 就 是 对 文件 文档 "ian 的 引用 。 知 道 这 一 点 ， 每 次 要 保存 引用 的 
时 候 就 得 做 抉择 了 : 用 DBRef 呢 ， 还 是 只 存储 " iq" 呢 ? 


保存 "_ia" 相当 不 错 ， 因 为 会 更 加 紧凑 ， 对 开发 者 而 言 也 更 轻 量 。 但 另 一 方面 ， 
DBRef 能 够 引用 任意 集合 (其 至 任意 数据 库 ) 的 文档 ， 开 发 者 不 必 知 道 和 记 住 被 引 
用 的 文档 在 哪些 集合 里 面 。 驱 动 程序 和 一 些 工 具 对 DBRef 提供 些 额 外 的 功能 (比如 
自动 去 引用 )， 而 且 服 务 器 端 在 日 后 也 可 能 会 有 更 高 级 的 支持 。 


总 之 ， 存 储 一 些 对 不 同 集合 的 文档 的 引用 时 ， 最 好 使 用 DBRef， 就 像 前 面 的 例子 。 
或 者 想 使 用 驱动 程序 或 者 工具 中 DBRef 特有 的 功能 ， 只 能 用 DBRef 了 。 否 则 ， 最 
好 存储 "_ia" 作为 引用 来 使 用 ， 因 为 这 样 更 精简 ， 也 更 容易 操作 。 
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管理 MongoDB 还 算是 轻松 的 。 无 论 简 单 的 备份 还 是 做 带 有 复制 的 多 节点 系统 ， 都 
有 快捷 的 方法 。 这 也 体现 了 MongoDB 的 设计 理念 : 尽 可 能 简化 系统 操作 。 系 统 会 
尽量 自动 完成 各 种 配置 ， 而 不 是 让 用 户 和 管理 员 做 这 做 那 。 即 便 如 此 ， 还 是 有 少量 
管理 任务 需要 手工 干预 。 


本 章 从 开发 者 的 视角 切换 到 管理 员 的 视角 ， 看 看 MongoDB 如 何 运 维 。 你 可 能 在 一 
个 小 型 团队 中 负责 开发 和 运 维 ， 或 者 你 是 一 个 DBA 想 研 究 如 何 使 用 MongoDB， 那 
么 本 章 恰 好 适合 你 阅读 。 


本 章 主要 内 容 如 下 。 














。 MongoDB 就 是 一 个 普通 的 命令 行程 序 ， 用 mongod 调用 。 

。 MongoDB 提供 了 内 置 的 管理 接口 和 监控 功能 ， 易 于 与 第 三 方 监控 包 集 成 。 

。 MongoDB 支持 基本 的 、 数 据 库 级 别 的 用 户 认证 ， 包 括 只 读 用 户 ， 以 及 独立 的 管理 
员 权 限 。 

。 有 多 种 方式 备份 MongoDB ， 主 要 取决 于 实际 的 情况 该 用 哪 种 。 


8.1 启动 和 停止 MongoDB 


在 第 2 章 中 ， 已 经 介绍 了 启动 MongoDB 的 基本 方式 。 这 里 会 更 加 细致 地 介绍 管理 
员 在 生产 环境 中 部 署 Mongo 的 要 点 。 


8.1.1 ”从 命令 行 启动 
执行 mongod， 启 动 MongoDB 服务 器 。mongod 有 很 多 可 配置 的 启动 选项 : 在 命令 
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J 运行 mongod --help 可 以 查看 所 有 选项 。 一 些 主要 选项 如 下 。 


。 --dbpath 

指定 数据 目录 ; 默认 值 是 /data/db/ (Windows 下 是 C:\data\db\)。 每 个 mongod 
进程 都 需要 独立 的 数据 目录 ， 所 以 要 是 有 3 个 mongod 实例 ， 必 须要 有 3 个 独 
立 的 数据 目录 。 当 mongod 启动 时 ， 会 在 数据 目录 中 创建 mongod.lock 文件 ， 
这 个 文件 用 于 防止 其 他 mongod 进程 使 用 该 数据 目录 。 如 果 使 用 同一 个 数据 目 
录 启 动 另 一 个 MongoDB 服务 器 ， 则 会 报错 : 

"Unable to acquire lock for lockfilepath: /data/db/mongod.lock." 











。 --port 

指定 服务 器 监听 的 端口 号 。 默 认 端 口 是 27017， 是 个 其 他 进程 不 怎么 用 的 端口 
(除了 其 他 mongod 进程 ) 。 要 是 运行 多 个 mongod 进程 ， 则 要 给 每 个 指定 不 同 
的 端口 号 。 如 果 启 动 mongod 时 端口 被 占用 ， 则 报错 : 


"Address already in use for socket: 0.0.0.0:27017" 








。 --fork 

以 守护 进程 的 方式 运行 MongoDB， 创 建 服务 器 进程 。 

。 --logpath 

指定 日 志 输 出 路 径 ， 而 不 是 输出 到 命令 行 。 如 果 对 文件 夹 有 写 权 限 的 话 ， 系 统 
会 在 文件 不 存在 时 创建 它 。 它 会 将 已 有 文件 覆盖 掉 ， 清 除 所 有 原来 的 日 志 记录 。 
如 果 想 保留 原来 的 日 志 ， 还 需要 使 用 -- logappengd 选项 。 





。 ==-cConfig 


指定 配置 文件 ， 加 载 命令 行 未 指定 的 各 种 选项 。 详 见 8.1.2 市 。 


现在 启动 MongoDB 服务 器 ， 让 其 作为 守护 进程 监听 5586 号 端口 ， 并 将 所 有 输出 记 
录 到 mongodb.log: 





$ ./mongod --port 5586 --fork --logpath mongodb.1log 
forked process: 45082 
all output going to: mongodb.1log 


当初 次 安装 并 启动 MongoDB 时 ， 最 好 看 看 日 志 。 这 是 人 们 经 常 忽 视 的 一 点 ， 尤 其 
是 当 MongoDB 使 用 开机 局 动 脚本 局 动 的 时 候 。 但 是 日 志 经 常会 有 些 重要 的 警告 信 








息 ， 能 够 帮助 避免 发 生 一 些 错误 。 要 是 启动 MongoDB 时 没有 任何 警告 ， 则 万 事 大 
吉 。 不 过 实际 情况 下 你 可 能 看 到 下 面 这 些 信息 : 

$ ./mongod 
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Sat Apr 24 11:53:49 Mongo DB : starting : pid = 18417 port = 27017 
dbpath = /data/db/ master = 0 slave = 0 32-bit 

大 炎炎 类 

WARNING: This is development version of MongoDB. 


Not recommended for production. 
类 火 火 火 


** NOTE: when using MongoDB 32 bit, you are limited to about 


六 大 2 gigabytes of data see 
wi http://blog.mongodb.org/post/137788967/32-bit-limitations 
炎炎 for more 


Sat Apr 24 11:53:49 db version v1i.5.1-pre-, pdfile version 4.5 
Sat Apr 24 11:53:49 git version: f86d93fd949777d5fbe00bf9784ec0947d6e75 


Sat Apr 24 11:53:49 sys info: Linux ubuntu 2.6.31-1l5-generic ... 
Sat Apr 24 11:53:49 waiting for connections on port 27017 
Sat Apr 24 11:53:49 web admin interface listening on port 28017 


这 里 运行 的 MongoDB 是 个 开发 版 ， 要 是 用 稳定 版 就 不 会 有 第 一 个 警告 了 。 第 二 个 
警告 是 因为 用 的 是 32 位 的 MongoDB。 在 32 位 下 ，MongoDB 只 能 处 理 2 GB 的 数 
据 ， 这 是 因为 MongoDB 使 用 内 存 映射 文件 存储 引擎 (附录 C 介绍 了 MongoDB 存 
储 引擎 的 相关 内 容 )。 要 是 在 64 位 机 器 上 使 用 稳定 版 ， 就 不 会 有 这 些 警 告 了 ， 但 最 
好 要 和 弄 明 白 MongoDB 日 志 的 原理 并 养 成 看 日 志 的 习惯 。 


日 志 的 这 部 分 开头 即便 重启 也 没什么 变化 ， 所 以 如 果 明 白 了 其 中 的 含义 以 后 ， 在 开 
机 脚本 中 启动 MongoDB 可 以 放心 地 忽略 这 部 分 。 然 而 ， 最 好 要 在 每 次 安装 、 升 级 ， 
宕 机 恢复 后 再 次 确认 一 下 MongoDB 和 系统 都 运转 良好 。 











8.1.2 配置 文件 


MongoDB ene 息 。 当 需要 的 配置 非常 多 或 者 要 自动 化 MongoDB 
的 启动 时 就 会 用 到 这 个 。 指 定 配置 文件 可 以 用 -f 或 者 --config 选项 。 例如， 运行 
mongod --config .mongodb .conf 就 会 使 用 “/ .mongodb .conf 作为 配置 文件 。 


配置 文件 和 命令 行 的 功能 一 样 的 。 下 面 就 是 一 个 配置 文件 的 例子 : 


# Start MongoDB as a daemon on port 5586 


5586 
true # daemonize it! 


Bort 
fork 


logpath = mongodb.1og 


这 个 配置 文件 指定 的 选项 和 我 们 之 前 使 用 常规 的 命令 行 参数 时 所 使 用 的 相同 。 它 还 
体现 了 配置 文件 的 一 些 特点 。 





。 以 # 开 头 的 行 是 注释 。 
。 指定 选项 的 语法 就 是 这 种 “选项 = 值 ” 的 形式 ， 其 中 选项 是 区 分 大 小 写 的 。 
。 命令 行 中 那些 如 - -fork 的 开关 选项 ， 其 值 要 设 为 true。 


8.1.3 停止 MongoDB 
让 MongoDB 稳妥 地 停 下 来 和 局 动 它 同样 重要 。 有 很 多 途径 可 以 有 效 地 做 到 这 点 。 





最 基本 的 方法 就 是 向 MongoDB 服务 器 发 送 一 个 SIGINT 或 者 SIGTERM 信号 。 如 
果 服 务 器 是 作为 前 台 进 程 运 行 在 终端 的 ， 就 直接 按 Ctrl-C。 否 则 ， 就 用 kill 这 种 
命令 发 出 信号 。 如 果 mongod 的 PID 是 10014， 就 可 以 kill -2 10014 (SIGINT) 
或 者 kill 10014 (SIGTERM)。 


当 mongod 收 到 SIGINT 或 者 SIGTERM 时 ， 会 稳妥 退出 。 也 就 是 说 会 等 到 当前 运 
行 的 操作 或 者 文件 预 分 配 完成 〈 需 要 一 些 时 间 ) ， 关 闭 所 有 打开 的 连接 ， 将 缓存 的 数 
据 刷新 到 磁盘 ， 最 后 停止 。 

| ww 千 万 不 要 向 运行 中 的 MongoDB 发 送 SIGKILL (ki11-9)。 这 样 会 导致 数 
CB 所 库 直接 关闭 ， 上 面 讲 到 的 步 都 将 被 忽略 ， 这 会 使 数据 文件 损毁 。 要 是 
一 ” 真 的 发 生 了 不 幸 ， 一 定 要 在 启动 备份 之 前 修复 数据 库 ，( 详 见 8.4.5 节 )。 








HH 
五 
他 


另 一 种 稳妥 的 方式 就 是 使 用 shutdown 命令 ，{"shutdown" : 1}。 这 是 管理 
令 ， 要 在 admin 数据 库 下 使 用 。shell 提供 了 辅助 函数 ， 来 简化 这 一 过 程 : 

> use admin 

switched to db admin 


> db.shutdownServer();，; 
server should be down... 


8.2 监控 


作为 MongoDB 管理 员 ， 很 重要 的 工作 就 是 监控 系统 的 状态 和 性 能 。 好 在 MongoDB 
有 很 多 功能 ， 使 得 监控 很 容易 。 


8.2.1 使 用 管理 接口 

默认 情况 下 ， 启 动 mongod 时 还 会 启动 一 个 (非常 ) 基本 的 HITP 服务 器 ， 该 服务 
器 监听 的 端口 号 比 主 服务 的 端口 号 大 1000。 这 个 服务 器 提供 了 HTTP 接口 ， 可 以 查 
看 MongoDB 的 一 些 基 本 信息 。 这 些 呈 现 的 信息 也 能 通过 shell 来 查看 ， 不 过 HTTP 
接口 提供 的 信息 更 加 易 读 。 


译注 1: 否则 下 次 将 无 法 正常 启动 。 

















启动 服务 器 ， 然 后 在 浏览 器 里 查看 http://localhost:28017， 就 能 看 见 管理 接口 。( 如 果 用 
--port 指定 了 端口 ， 则 要 用 比 它 大 1000 的 端口 号 )。 你 会 看 到 如 图 8-1 所 示 的 页 面 。 











mongod morton.local 


List all commands | Replica set status 





HTTP admin port:28017 

db version v1.5.3-pre-, pdfile version 4.5 

git hash: ac3c063d9009398edc87810bfflefeba885000e3 

sys info: Darwin morton.local 10.3.0 Darwin Kernel Version 10.3.0: Fri Feb 26 11:58:09 PST 2010; root:xnu-1504.3.12~1/REL} 
uptime: 2484 seconds 

assertions: 

















Client OpId Active LockType Waiting SecsRunning Op NameSpace Query client msg progress 
initandlisten |0 1 2004 test { name: /“local.temp./ }|0.0.0.0:0 
snapshotthread |0 0 0 | ] (NONE) 

clientcursormon |0 0 0 (NONE ) 

websvr 0 0 0 (NONE ) 









































write locked: false 
time to get readlock: 0ms 
# databases: 1 


replication: 

master: 0 

slave: 0 
initialsyncCompleted: 1 


dbtop (occurences|percent of elapsed) 





NS total Reads Writes Queries GetMores Inserts Updates Removes 
GLOBAL 0|0.00% 0 0.00%|0 0.00%|0|0.00%|0|0.00% |0|0.00%|0|0.00%|0|0.00% 


















































elapsed(ms) $ write locked 


3999 0% 
3999 0% 
3999 0% 
3999 0% 
3999 0% 
3999 O% 
3999 0% 
3999 0% 
3999 0O% 
3999 0% 











图 8-1: 管理 接口 


可 以 看 到 断言 、 锁 、 索 引 和 复制 等 相关 信息 。 还 有 些 更 加 常见 的 信息 ， 如 日 志 前 导 、 
数据 库 命 令 列 表 。 


要 想 利用 好 管理 接口 (比如 ,访问 命令 列表 )， 需 要 用 --rest 选项 开启 REST 支 
持 。 也 可 以 在 启动 mongod 时 使 用 --nohttpinterface 关闭 管理 接口 。 








| 不 要 用 驱动 程序 连接 HTTP 接口 ， 也 不 要 通过 HTTP 连接 本 机 驱动 端口 。 
-E> 驱动 端口 只 能 处 理 本 机 MongoDB 传输 协议 ， 不 能 处 理 HTTP 请 求 。 例 如 ， 
如 果 在 浏览 器 中 查看 http://localhost:27017， 会 看 到 如 下 提示 : 














You are trying to access MongoDB on the native driver port. 
For http diagnostic access, add 1000 to the port number 


同样 ， 也 不 能 用 本 机 MongoDB 传输 协议 去 访问 管理 接口 的 端口 。 








8.2.2 serverStatus 


要 获取 运行 中 的 MongoDB 服务 器 统计 信息 ， 最 基本 工具 就 是 serverSstatus 命 
令 ， 输 出 如 下 所 示 (不 同 平台 不 同 版 本 的 键 会 有 差异 ) : 





> db.runCommand ({"serverSstatus" : 1}) 
{ 
yersion™ 3 SsS.3™., 
"uptime" : 166, 
"localTime" : "Thu Jun 10 2010 15:47:40 GMT-0400 (EDT)", 
"globalLock" : { 
"totalTime" : 165984675, 
"lockTime" : 91471425, 
"ratio" : 0.551083556358441 
人 到 
"Bits™ : 64, 
"resident" : 101, 
virtual" : 2824, 
"Supported™ 3 true, 
"mapped™ 3: 336 
}, 
"connections" : { 
"current" : 141， 
"available" : 19859 
js 
"extra info" : { 
"noter » vfields vary by platform" 
iy 
"indexCounters" : { 
"ptree" : { 
"accesses" : 1563, 
mitesY s L563 
"misses" : 0, 
#0 
"missRatio" : 0 
} 
5 
"packgroundFlushing" : { 
"flushes" : 2， 
"total ms" : 44, 
"aVverage me 4 22; 
"Last. me 3: 6, 
"last finished" : "Thu Jun 10 2010 15:46:54 GMT-0400 (EDT)" 
}, 
"opcounters" : { 
"insert" : 38195, 
TUE % 8874, 
"update" : 4058, 
"delete" : 389, 
"getmore™ : B88 
"command" : 17731 
ly 
"asserts" : { 
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vegular™ < 0; 


"warning" : 0, 

"msg" : 0， 

"user"™ : 5054, 

"YOollovers" :: 0 
"ok" : true 





原始 的 统计 信息 同样 可 以 由 HTTP 接口 以 JSON 的 形式 得 到 ， 位 置 在 
/_status (http://localhost:28017/_status)。 不 但 包括 serverstatus 输出 ， 
还 有 其 他 一 些 有 用 命令 的 输出 。 详 见 8.2.1 节 。 


























serverStatus 呈现 了 MongoDB 内 部 的 详细 信息 。 比 如 当前 服务 器 版 本 、 运 行 时 
间 (以 秒 计 )、 当 前 连接 数 。 有 些 信息 还 需要 解释 一 下 。 


"globalLock" 的 值 表示 全 局 写 入 锁 占 用 了 服务 器 多 少时 间 (以 微 秒 计 )。"mem" 包 
含 服务 器 内 存 映 射 了 多 少数 据 ， 服 务 器 进程 的 虚拟 内 存 和 常 驻 内 存 的 占用 情况 (单位 
是 MB)。"indexCounters" 表示 B 树 在 磁盘 检索 (misses") 和 内 存 检 索 ("hits") 
的 次 数 。 如 果 这 个 比值 开始 上 升 就 要 考虑 添加 内 存 了 ， 否 则 系统 性 能 就 会 受到 影响 。 
"backgroudFlushing" 表示 后 台 做 了 多 少 次 fsync 以 及 用 了 多 少时 间 。"opcounters" 文 
档 非 常 重要 ， 包 含 了 每 种 主要 操作 的 次 数 。 最 后 ，"asserts" 统计 了 断言 的 次 数 。 


serverStatus 结果 中 的 所 有 计数 都 是 在 服务 器 启动 时 开始 计算 的 ， 如 果 过 大 就 会 复 
位 。 当 发 生 复 位 时 ， 所 有 计数 器 都 复位 ，"asserts" 中 的 "rollovers" 值 会 增加 。 





8.2.3 mongostat 


serverstatus 虽然 强大 ， 但 对 监控 服务 器 来 说 却 不 怎么 易 用 。 还 好 ，MongoDB 
还 提供 了 mongostat, 可 以 便捷 地 查看 serverStatus 的 结果 。 








mongostat 输出 一 些 serverstatus 提供 的 重要 信息 。 它 会 每 秒 钟 输出 新 的 一 
行 ， 比 之 前 看 到 的 静态 计数 实时 性 更 好 。 它 输出 多 个 列 ， 分 别 是 insertsy/s、 
commands/s、vsize 和 % locked， 与 servezrStatus 的 数据 相对 应 。 


8.2.4 第 三 方 插件 


绝 大 多 数 管理 员 可 能 已 经 使 用 监控 系统 跟踪 服务 器 的 运行 情况 。serverstatus 和 
/_status URL 的 出 现 使 得 编写 MongoDB 的 监控 插件 非常 容易 。 写 作 本 书 时 ， 好 多 监 
控 系 统 都 有 了 MongoDB 插件 ， 例 如 Nagios、Munin、Ganglia、Cacti。 登 录 http:// 
dochub.mongodb.org/core/monitoring 查看 与 监控 工具 有 关 的 文档 。 








SI 
8.3 安全 和 认证 
系统 管理 员 的 一 项 重要 工作 就 是 确保 系统 的 安全 。 使 MongoDB 安全 的 最 好 方法 就 
是 在 一 个 可 信 的 环境 中 运行 它 ， 保 证 只 有 可 信 的 机 器 才能 访问 它 。MongoDB 支持 
对 单个 连接 的 认证 ， 即 便 这 个 认证 的 权限 模式 很 简陋 。 





8.3.1 认证 的 基础 知识 


每 个 MongoDB 实例 中 的 数据 库 都 可 以 有 许多 用 户 。 如 果 开 启 了 安全 性 检查 ， 则 
只 有 数据 库 认 证 用 户 才能 执行 读 或 者 写 操 作 。 在 认证 的 上 下 文中 ，MongoDB 会 将 
普通 的 数据 作为 admin 数据 库 处 理 。admin 数据 库 中 的 用 户 被 视 为 超级 用 户 ( 即 
管理 员 )。 在 认证 之 后 ， 管 理 员 可 以 读 写 所 有 数据 库 ， 执 行 特定 的 管理 命令 ， 如 


listDatabases 和 shutdown。 

















在 开启 安全 检查 之 前 ,一 定 要 至 少 有 个 管理 员 账 号 。 请 看 下 面 的 例子 ， 开 始 时 shell 
连接 的 是 没有 开启 安全 检查 的 服务 器 : 








> use admin 
switched to db admin 


> db.addUser ("root", "abcd"); 
{ 
和 六 和 和 
"zeadqonly" : false, 
"pwd" : "la0flc3c3aald592f490a2addc559383" 


} 


> USe test 
switched to db test 


> db.addUser ("test user", "efgh"); 
{ 
"UBer © MEeSt Se 
"readonly™ : false., 
"pwd" : "6076b96fc3fe6002c810268702646eec" 
} 
> db.addUser ("read only", "ijkl", true); 
{ 
VS VEGAad onlyy; 
"FeadOnly™ : true; 
"pwd" : "f497el80c9dc0655292fee5893c162f1" 


} 


上 面 添加 了 管理 员 root， 在 test 数据 库 添加 了 两 个 普通 帐号 。 其 中 一 个 有 只 读 权限 ， 
不 能 对 数据 库 写 入 。 在 shell 中 创建 只 读 用 户 只 要 将 adadaUser 的 第 3 个 参数 设 为 
true 就 可 以 了 。 调 用 aaaUser 必须 有 相应 数据 库 的 写 权 限 。 这 里 可 以 对 所 有 数据 
库 调 用 aaaUser， 因 为 还 没有 开启 安全 检查 。 


























adqUser 不 仅 能 添加 用 户 ， 它 还 能 修改 用 户口 令 或 者 只 读 状态 。 所 以 设置 
用 户 名 、 新 密码 或 者 只 读 属 性 都 交 给 adaUser 好 了 。 




















现在 重启 服务 器 ， 这 次 加 入 --auth 命令 行 选项 ， 开 启 安全 检查 。 之 后 ， 通 过 shell 
重新 连接 数据 库 : 


> USe teat 

switched to db test 

> db.test.find(); 

error: { "$err" : "unauthorized for db [test] lock type: -1 " } 
db:auth ("read onLly™, "ijk1"™); 








> 
得 
> db.test.find(); 
l 
> 


"_id" : ObjectId("4bb007f53e8424663ea6848a"), "x" : 1 } 
db.test.insert ({"x" : 2})); 
unauthorized 
> db auth("test user™; efogh")s 
1 
> db.test.insert ({"x": 2}); 
> db.test.find(); 
{ "_id" : ObjectId("4bb007f53e8424663ea6848a"), "x" : 1 } 
{ "_id" : ObjectIid("4bb0088cbe17157d7b9cac07"), "x" : 2 } 
> show dbs 
assert: assert failed : listDatabases failed:{ 
"assertion" : "unauthorized for db [admin] lock type: 1 
中 
"errmsg" : "db assertion failure", 
GE :iO 


} 


> use admin 

switched to db admin 

> db.auth{("root", “abcd"})s 
> show dbs 

admin 

local 

蕊 所 各 蕊 


第 一 次 连接 时 ， 不 能 对 test 数据 库 执 行 任何 操作 (无 论 读 写 ) 。 作 为 reag_only 用 
户 认 证 之 后 ， 就 能 查找 了 。 但 插入 数据 时 ， 由 于 权限 不 足 还 是 遇 到 了 问题 。test_ 
user 不 是 只 读 的 ， 所 以 能 正常 插入 数据 。 但 作为 一 个 非特 权 用 户 ，test_user 不 
能 使 用 show gdbs 帮助 程序 来 列举 所 有 数据 库 。 最 后 作为 管理 员 root 认证 后 ， 就 能 
对 所 有 数据 库 执 行 任意 操作 了 。 


8.3.2 ”认证 的 工作 原理 
数据 库 的 用 户 账 号 以 文档 的 形式 存储 在 system.users 集合 里 面 。 文 档 的 结构 














是 {"user" : username, "readonly": true, "pwd" : password hash)。 


password hash 是 根据 用 户 名 和 密码 生成 的 散 列 。 


知道 了 用 户 信息 是 如 何 存储 的 以 及 存储 位 置 后 ， 有 些 日 常 管理 任务 执行 起 来 就 很 轻 
公 了 。 例 如 ， 在 system.users 集合 中 删 掉 用 户 账号 文档 ， 就 可 以 删除 用 户 : 


> dauth("test vser., vefgh"):; 

壮 

> db.system.users.remove({'"user" : "test user"}); 
> bauth(M est USBert,y vefogi my) 

0 


用 户 认证 时 ， 服 务 器 将 认证 和 连接 绑 定 来 跟踪 认证 。 也 就 是 说 如 果 驱 动 程序 或 是 工 
有 具 使 用 了 连接 凶 或 是 因 故 障 切 换 到 另 一 个 节点 ， 所 有 认证 用 户 必须 对 每 个 新 连接 重 
新 认证 。 有 的 驱动 程序 能 够 将 这 步 透明 化 ， 但 要 是 没有 ， 就 得 手动 完成 。 真 是 这 样 
的 话 ， 或 许 应 该 不 用 --auth (通过 将 MongoDB 部 署 到 可 信 环 境 中 然后 在 客户 端 处 
理 认证 )。 


8.3.3 ”其 他 安全 考虑 


除了 认证 还 有 许多 选项 值得 考虑 ， 来 锁定 MongoDB 实例 。 首 先 即 便 用 了 认证 ， 
MongoDB 传输 协议 也 是 不 加 密 的 。 如 果 需 要 加 密 ， 可 以 用 SSH 隧道 或 者 类 似 的 技 
术 做 客户 端 和 服务 器 之 间 的 加 密 。 

这 里 建议 将 MongoDB 服务 器 布置 在 防火 墙 后 或 者 布置 在 只 有 应 用 服务 器 能 访问 的 
网 络 中 。 但 要 是 MongoDB 必须 能 被 外 面 访问 到 的 话 ， 建 议 使 用 --pindip 选项 ， 
可 以 指定 mongoa 绑 定 到 的 本 地 IP 地 址 。 例 如， 只 能 从 本 机 应 用 服务 器 访问 ， 可 以 


运行 "mongod --bindip localhost"。 








8.2.1 节 已 经 讲 过 ， 默 认 情 况 下 MongoDB 会 开启 一 个 简单 的 HTTP 服务 器 ， 便 
于 查看 运行 、 锁 、 复 制 等 方面 的 信息 。 要 是 不 想 公 开 这 些 信 息 ， 就 应 该 通过 
--nohttpinter-face 将 管理 接口 关闭 。 








最 后 ， 还 可 以 用 --noscripting 完全 禁止 服务 端 JavaScript 的 执行 。 


8.4 备份 和 修复 

做 备份 是 管理 任何 数据 存储 系统 的 一 项 非常 重要 的 任务 。 恰 当地 备份 往往 很 难 ， 搞 
不 好 会 弄巧成拙 ， 还 不 如 不 备份 呢 。 还 好 ，MongoDB 提供 了 一 些 选 项 让 这 个 过 程 
不 再 困难 重重 。 
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8.4.1 数据 文件 备份 


MongoDB 将 所 有 数据 都 存放 在 数据 目录 下 。 默 认 目 录 是 /data/db/ (Windows 下 是 
Ci\data\db\) 。 局 动 MongoDB 的 时 候 可 以 用 --dbpath 指定 数据 目录 。 不 论 数 据 目 
录 在 哪里 ， 它 都 存放 着 MongoDB 的 所 有 数据 。 也 就 是 说 ， 要 想 备 份 MongoDB ， 只 
要 简单 创建 数据 目录 中 所 有 文件 的 副本 就 可 以 了 。 


除非 服务 器 做 了 完整 的 fsync， 还 不 允许 写 入 ， 否 则 在 运行 MongoDB 时 
创建 数据 目录 的 副本 并 不 安全 。 这 样 的 备份 很 可 能 已 经 破损 了 ， 需 要 修复 
一 ( 详 见 8.4.5 节 )。 














在 运行 MongoDB 时 复制 数据 目录 不 太 安 全 ， 所 以 就 得 先 把 服务 器 关 了 ， 再 复制 数 
据 目 录 。 假 设 服务 器 安全 关闭 了 ( 详 见 8.1 节 )， 数 据 库 目录 中 就 是 关闭 那 一 刻 数据 
的 快照 。 在 服务 器 重新 启动 之 前 ， 可 以 复制 目录 作为 备份 。 


虽然 关 停 服务 器 再 复制 数据 目录 做 备份 很 有 效 ， 也 很 安全 ， 但 还 是 不 太 理 想 。 本 章 
剩 下 的 部 分 会 介绍 不 需要 停机 的 备份 方式 。 





8.4.2 mongodump 和 mongorestore 

mongodump 就 是 一 种 能 在 运行 时 备份 的 方法 ，MongoDB 自 带 这 个 工具 。mongodump 
对 运行 的 MongoDB 做 查询 ， 然 后 将 所 有 查 到 的 文档 写 入 磁盘 。 因 为 mongodump 是 一 
般 的 客户 端 ， 所 以 可 供 运行 的 MongoDB 使 用 ， 即 便 是 正在 处 理 其 他 请 求 或 是 执行 写 
入 也 没有 问题 。 











人 mongodump 使 用 普通 的 查询 机 制 ， 所 以 产生 的 备份 不 一 定 是 服务 器 数据 的 
心 。 实时 快照 。 服 务 器 在 备份 过 程 中 处 理 写 人 时 尤为 明显 。 
4 
mongodump 还 带 来 个 问题 ， 备 份 时 的 查询 会 对 其 他 客户 端的 性 能 产生 不 利 


影响 。 











像 大 多 数 MongoDB 的 命令 行 工 具 一 样 ，mongodump 也 可 以 通过 运行 --help 选项 
查看 所 有 选项 : 


$ ./mongodump --help 


options: 
--help produce help message 
-Vv [ --verbose ] be more verbose (include multiple times for more 
verbosity e.g. -VVVVV) 
-h [ --host ] arg mongo host to connect to ("left,right" for pairs) 
-d [ --db ] arg database to use 
-C [ --collection ] arg collection to use (some commands) 
-u [ --username ] arg username 





-p [ --password ] arg password 
--dbpath arg directly access mongod data files in the given 
path, 
instead of connecting to a mongod instance - needs 
to lock the data directory, so cannot be used if a 
mongod is currently accessing the same path 


--directoryperdb if dbpath specified, each db is in a separate 
directory 
-oO [ --out ] arg (=dump) output directory 


除了 mongodump，MongoDB 还 提供 了 从 备份 中 恢复 数据 的 工具 mongorestore。 
mongorestore 获取 mongodump 的 输出 结果 ， 并 将 备份 的 数据 插入 到 运行 的 MongoDB 
实例 中 。 下 面 的 例子 演示 了 从 数据 库 test 到 backup 目录 的 热 备 份 ， 接 着 还 调用 了 


mongorestore: 





$ ./mongodump -d test -o backup 
connected to 127a00.:1 


DATABASE: test tO backup/test 
test.x to backup/test/x.bson 
1 objects 


$ ./mongorestore -d foo --drop backup/test/ 
connected to: 127.0.0.1 
backup/test/x.bson 

going into namespace [foo.x] 

dropping 

1 objects 


上 面 的 例子 中 ，-a 指定 了 要 恢复 的 数据 库 ， 这 里 是 foo。 这 个 选项 可 以 将 备份 恢复 
到 与 原来 不 同名 的 数据 库 中 。- -drop 代表 在 恢复 前 删除 集合 〈 若 存在 ) 。 否 则 ， 数 
据 就 会 与 现 有 集合 数据 合并 ， 可 能 会 覆盖 一 些 文档 。 再 强调 一 次 ， 要 获得 完整 的 选 
项 列表 ， 可 以 运行 mongorestore --help。 








8.4.3 fsync 和 锁 


虽然 用 mongodump 和 mongorestore 能 不 停机 备份 ， 但 是 我 们 却 失去 了 获取 实时 数据 视 
图 的 能 力 。MongoDB 的 fsync 命令 能 在 MongoDB 运行 时 复制 数据 目录 还 不 会 损毁 数据 。 


fsync 命令 会 强制 服务 器 将 所 有 缓冲 区 写 人 磁盘 。 还 可 以 选择 上 锁 阻 止 对 数据 库 的 
进一步 写 入 ， 直 到 释放 锁 为 止 。 写 入 锁 是 让 fsync 在 备份 时 发 挥 作用 的 关键 。 下 面 
的 例子 展示 了 如 何在 shell 中 操作 ， 强 制 执行 了 fsync 并 获得 了 写 入 锁 : 


> use admin 
switched to db admin 
> db.runCommand ({"fsync" : 1, "lock" : 1})); 


{ 











"info": "now locked against writes, use db.$cmd.sys.unlock.findone() to 
unlock", 
Ee) sh 





至 此 ， 数 据 目录 的 数据 就 是 一 致 的 ， 且 为 数据 的 实时 快照 。 因 为 上 了 写 入 锁 ， 可 以 
安全 地 将 数据 目录 副本 用 做 备份 。 要 是 数据 库 运行 在 有 快照 功能 的 文件 系统 上 时 ， 
比如 LVM 或 者 EBS ， 这 个 就 很 有 用 了 ， 因 为 拍 个 数据 库 目录 快照 非常 之 快 。 
备份 好 了 ， 就 要 解锁 : 


> db.$cmd.sys.unlock.findone(); 





{ "ok" : 1, "info" : "unlock requested" } 
> db.currentOp(); 
{ "LABrog™ : [1] 


运行 currentOp 是 为 了 确保 已 经 解锁 了 。( 初 次 请 求解 锁 会 花 点 时 间 ,) 


有 了 fsync 命令 ， 就 能 非常 灵活 地 备份 ， 不 用 停 掉 服务 器 ， 也 不 用 牺牲 备份 的 实时 
特性 。 要 付出 的 代价 就 是 一 些 写 入 操作 被 暂时 阻塞 了 。 唯 一 不 耽误 读 写 还 能 保证 实 
时 快照 的 备份 方式 就 是 通过 从 服务 器 备份 。 


8.4.4 ”从 属 备份 

虽然 上 面 说 的 几 种 方式 在 备份 数据 方面 已 经 很 灵活 了， 但 是 都 不 及 在 从 服务 器 上 备 
份 。 当 以 复制 的 方式 运行 MongoDB 时 ( 详 见 第 9 章 ) ， 前 面 提 到 的 备份 技术 就 不 仅 能 
用 在 主 服务 器 上 ， 也 可 以 用 在 从 服务 器 上 ， 而 且 效 果 还 会 更 好 。 从 服务 器 的 数据 几乎 
与 主 服 务 器 同步 。 因 为 不 太 在 乎 从 属 服务 器 的 性 能 或 是 能 不 能 读 写 ， 于 是 就 能 随意 选 
择 上 面 的 3 种 备份 方式 : 关 停 、 转 储 和 恢复 工具 或 fsync 命令 。 在 从 服务 器 上 备份 是 
MongoDB 推荐 的 备份 方式 。 


8.4.5 修复 


做 备份 是 为 了 以 备 不 测 ， 比 如 停电 ， 甚 至 大 象 问 入 数据 中 心 什么 的 ， 不 管 怎样 数据 都 是 
安全 的 。 总 是 有 机 器 宕 掉 ， 又 恰巧 没有 备份 〈 或 者 没有 可 以 转移 故障 的 从 服务 器 ) 这 种 
倒霉 时 刻 。 要 是 停电 或 者 软件 崩 福 ， 恢 复 后 机 器 的 磁盘 一 般 疫 有 问题 。 但 MongoDB 的 
存储 方式 不 能 保证 磁盘 上 的 数据 还 能 用 ， 因 为 可 能 有 损毁 (关于 MongoDB 的 存储 引擎 
详 见 附录 C)。 幸 好 ，MongoDB 内 置 的 修复 功能 会 试 着 恢复 损坏 的 数据 文件 。 


未 能 正常 停止 MongoDB 后 应 该 修复 数据 库 。 要 是 未 正常 停止 ， 下 次 启动 服务 器 备 
份 时 MongoDB 会 提示 




















天 火炎 大 大 大 大 大 大兴 大 大 大 大 
old lock file: /data/db/mongod.lock. probably means unclean shutdown 
recommend removing file and running --repair 


see: http://dochub.mongodb.org/core/repair for more information 
类 火炎 火炎 炎炎 炎炎 火炎 类 类 





注 1: Linux 的 逻辑 卷 管理 器 。 
注 2: Elastic Block Store， 亚 马 逊 提供 的 一 种 持久 存储 方案 。 











修复 所 有 数据 库 最 简单 的 方式 就 是 加 上 --repair: mongod --repair 来 启动 服务 
器 。 修 复数 据 库 的 实际 过 程 实际 上 非常 简单 : 将 所 有 的 文档 导出 然后 马上 导入 ， 忽 
略 那些 无 效 的 文档 。 完 成 以 后 ， 会 重新 建立 索引。 了解 这 一 机 制 对 理解 修复 的 一 些 
属性 有 帮助 。 数 据 量 大 的 话 会 花 很 多 时 间 ， 因 为 所 有 数据 都 要 验证 ， 所 有 索引 都 要 
重建 。 修 复 后 可 能 会 比 修复 前 少 些 文档 ， 因 为 损毁 的 文档 都 被 丢弃 了 ，。 





、 修复 数据 库 还 能 起 到 压缩 数据 的 作用 。 闲 置 的 空间 (比如 删除 体积 较 大 的 
心 人。 集合 ， 或 删除 大 量 文档 后 腾 出 的 空间 ) 在 修复 后 被 重新 回收 。 











修复 运行 中 的 服务 器 上 的 数据 库 ， 要 在 shell 中 用 *epaizDatabase。 使 用 下 列 方 
法 修复 一 下 test 数据库 : 





有 二 交加 必 

Switchedq to db test 
> qb.repairDatabase () 
{ Wer :| 


要 是 不 通过 shell 而 是 通过 驱动 程序 ， 可 以 用 repairDatabase 来 完成 相同 的 事情 : 
{"repairDatabase" : 1} 


修复 损毁 的 数据 是 不 得 已 时 的 最 后 一 招 。 尽 可 能 稳妥 地 停 掉 服务 器 ， 利 用 复制 功能 
实现 故障 恢复 ， 经 常 做 备份 ， 这 些 才 是 最 有 效 的 管理 数据 的 手段 。 





译注 1: MongoDB 1.8 以 后 3 入 了 日 志 系 统 ， 使 得 系统 恢复 时 间 大 大 缩短 。 
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MongoDB 管理 员 最 重要 的 工作 莫 过 于 确保 复制 设置 正确 ， 且 运转 良好 。 这 里 强烈 
推荐 在 生产 环境 中 使 用 MongoDB 的 复制 功能 ， 尤 其 是 现在 的 存储 引擎 还 不 支持 
单机 持久 性 ( 详 见 目录 C)。 不 仅 可 以 用 复制 来 应 对 故障 切换 、 数 据 集成 ， 还 可 以 
用 来 做 读 扩 展 、 热 备份 或 作为 离线 批 处 理 的 数据 源 。 本 章 会 介绍 复制 的 方方面面 。 


9.1 主 从 复制 


主 从 复制 是 MongoDB 最 常用 的 复制 方式 。 这 种 方式 非常 灵活 ， 可 用 于 备份 、 故 障 
恢复 、 读 扩展 等 〈( 详 见 图 9-1 和 图 9-2 ) 。 




















9-1: 搭配 一 个 从 节点 的 主 节点 
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UN 


图 9-2: 搭配 3 个 从 节点 的 主 节点 


最 基本 的 设置 方式 就 是 建立 一 个 主 节 点 和 一 个 或 者 多 个 从 市 点 ， 每 个 从 市 点 要 
知道 主 节点 的 地 址 。 运 行 mongod --master 就 启动 了 主 服务 器 。 运 行 mongod 
--slave --source master address 则 启动 了 从 服务 器 ， 其 中 master address 
就 是 上 面 主 节 点 的 地 址 。 


生产 环境 下 会 有 多 台 服 务 器 的 ， 不 过 这 里 简化 一 下 就 在 同一 台 机 器 上 试验 了 。 首 先 ， 
给 主 节 点 建立 数据 目录 ， 并 绑 定 端口 (10000) : 


$ mkdir -p ~/dbs/master 
$ ./mongod --dbpath ~/dbs/master --port 10000 --master 


接着 设置 从 市 点 ， 记 着 要 选择 不 同 的 目录 和 和 端口， 并且 用 --source 为 从 节点 指明 主 
节点 的 地 址 : 
$ mkdir -p ~/dbs/slave 


$ ./mongod --dbpath ~/dbs/slave --port 10001 --slave --source 
localhost:10000 


所 有 从 节点 都 从 主 节点 复制 内 容 。 目 前 还 没有 能 够 从 从 节点 复制 的 机 制 〈 萄 花 链 )， 
原因 就 是 从 节点 并 不 保存 自己 的 oplog (关于 oplog， 详 见 9.4 节 )。 

一 个 集群 中 有 多 少 个 从 节点 并 没有 明确 的 限制 ， 但 是 上 千 个 从 节点 对 单个 主机 点 发 
起 查询 也 会 让 其 吃不消 的 。 所 以 实际 中 ， 不 超过 12 个 从 布点 的 集群 就 可 以 运转 良 
好 了 。 














9.1.1 选项 
主 从 复制 有 些 有 用 的 选项 。 
”GDJY 


在 从 市 点 上 指定 只 复制 特定 某 个 数据 库 (默认 复制 所 有 数据 库 )。 


。 --slavedelay 


用 在 从 节点 上 ， 当 应 用 主 节 点 的 操作 时 增加 延 时 (单位 是 秒 )。 这 样 就 能 轻松 设 








置 延 时 从 节点 了 ， 这 种 节点 对 用 户 无 意 中 删除 重要 文档 或 者 插入 垃圾 数据 等 事故 
有 很 重要 的 防护 作用 。 这 些 不 良 操作 都 会 被 复制 到 所 有 从 节点 上 。 通 过 延缓 执行 


操作 ， 可 以 有 个 恢复 的 时 间 差 。 


。 --fastsync 


以 主 市 点 的 数据 快照 为 基础 启动 从 市 点 。 如 果 数 据 目 录 一 开始 是 主 市 点 的 数据 


快照 ， 从 市 点 用 这 个 选项 启动 要 比 做 完整 同步 快 很 多 。 


. --autoresync 


如 果 从 节点 与 主 节 点 不 同步 了 ， 则 自动 重新 则 步 。( 详 见 9.4 市 。,) 





。 --oplogSize 
主 节 点 oplog 的 大 小 (单位 是 MB)。( 详 见 9.4 节 。) 


9.1.2 添加 及 删除 源 


启动 从 节点 时 可 以 用 --source 指定 主 节 点 ， 也 可 以 在 shell 中 配置 这 个 源 。 





假设 主 节 点 绑 定 了 1localhost27017。 局 动 从 节点 时 可 以 不 添加 产 ， 而 是 随后 向 


sources 集合 添加 主 节点 信息 : 
$ ./mongod --slave --dbpath ~/dbs/slave --port 27018 


现在 可 以 在 shell 中 运行 如 下 命令 ， 将 localhost:27017 作为 源 添加 到 从 节点 上 : 


> use local 
> db.sources.insert({"host" : "localhost:27017"}) 





看 看 从 属 节 点 的 日 志 ， 会 发 现 它 与 localhost:27017 同步 。 
在 sources 集合 中 插入 源 后 ， 如 果 立 刻 进行 查询 就 能 查 到 插入 的 文档 : 
> db.sources.fing() 


7 : ObjectId("4c1650c2dq26b84ccla31781f") ， 
ROSET » TIOGaLlhost :270L7Y 


} 
当 完 成 同步 后 ， 该 文档 就 被 更 新 了 : 


> db.sources.find() 
{ 
Wi oy : ObjectId("4c1650c2dq26b84ccla31781f") ， 
hogst™ : Tlocalhost:27017". 
"source"™ : "main", 
"syncedTo" : { 
星相 二 
Li 下 





} 


"localLogTs" : { 
- 


已 0 

"in : 0 
"dbsNextPass" : { 

Eest. db i: rue 


} 
} 


假设 在 生产 环境 下 ， 想 更 改 从 市 点 的 配置 ， 改 用 prod .example.com 为 源 ， 则 可 以 


用 insert 和 remove 来 完成 : 


> db.sources.insert ({"host" : "prod.example.com:27017"}) 
> db.sources.remove({"host" : "localhost:27017"})) 


可 以 看 到 ，sources 集合 可 以 被 当做 普通 集合 进行 操作 ， 而 且 为 管理 从 节点 提供 了 
很 大 的 灵活 性 。 
要 是 切换 的 两 个 主 节点 有 相同 的 集合 ，MongoDB 会 尝试 合并 ， 但 不 保证 能 


-Ey 正确 合并 。 要 是 使 用 的 一 个 从 节点 对 应 多 个 不 同 的 主 节点 ， 最 好 在 主 节点 
上 使 用 不 同 的 命名 空间 。 











9.2 副本 集 

简单 地 说 ， 副 本 集 (Replica Set) 就 是 有 自动 故障 恢复 功能 的 主 从 集群 。 主 从 集群 和 副本 
集 最 为 明显 的 区 别 是 副本 集 没 有 固定 的 “ 主 节 点 ”: 整个 集群 会 选举 出 一 个 “ 主 节 点 ”， 
当 其 不 能 工作 时 则 变更 到 其 他 节点 。 然 而 ， 二 者 看 上 去 非常 相似 : 副本 集 总 会 有 一 个 活 
跃 节 点 (primary) 和 一 个 或 多 个 备份 节点 (secondary)。 详 见 图 9-3 一 图 9-5。 


副本 集 最 美妙 的 地 方 就 是 所 有 东西 都 是 自动 化 的 。 首 先 ， 它 为 你 做 了 很 多 管理 工作 ， 
自动 提升 备份 节点 成 为 活跃 节点 ， 以 确保 运转 正常 。 其 次 ， 它 对 于 开发 者 而 言 ， 也 
很 易 用 : 仅 需 要 为 副本 集 指定 一 下 服务 器 ， 驱 动 程序 就 会 自动 找到 服务 器 ， 在 当前 
活跃 节点 死机 时 自动 处 理 故 障 恢复 这 类 事情 。 














活跃 


ey 
4 















9-3: 包含 两 个 成 员 的 副本 集 























图 9-4: 活跃 节点 不 工作 了 ， 备 份 节点 就 会 成 为 活跃 节点 











图 9-5: 如 果 原 来 的 活跃 节点 恢复 了 ， 它 会 成 为 新 的 活跃 节点 的 备份 节点 


9.2.1 初始 化 副本 集 
设置 副本 集 比 设置 主 从 集群 稍微 复杂 一 点 。 先 从 最 简单 的 例子 开始 : 两 个 服务 器 。 


不 能 用 localhost 地 址 作为 成 员 ， 所 以 得 找到 机 器 的 主机 名 。 在 *NIX 系 
4S 4。 统 中 ， 可 以 这 样 : 

$ cat /etc/hostname 

morton 


首先 ， 要 为 每 一 个 服务 器 创建 数据 目录 ， 选 择 端 口 : 


$ mkdir -p ~/dbs/nodel ~/dbs/node2 


在 启动 之 前 ， 还 得 做 个 重要 决定 : 给 副本 集 起 个 名 字 。 名 字 是 为 了 易于 与 别 的 副本 
集 区 分 ， 也 是 为 了 方便 地 将 整个 集合 视 为 一 个 整体 。 这 里 就 命名 为 "blort"。 


之 后 就 启动 服务 器 。- -zeplset 是 个 没 接触 过 的 选项 ， 作 用 是 让 服务 器 知晓 在 这 个 
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"blort" 副本 集中 还 有 别 的 同伴 ， 位 置 在 morton:10002 (还 没 启动 呢 ) : 


$ ./mongod --dbpath ~/dbs/nodel --port 10001 --replSet blort/morton:10002 


以 同样 的 方式 局 动 另 一 台 : 





$ ./mongod --dbpath ~/dbs/node2 --port 10002 --replSet blort/ 
morton:10001 


如 果 想 添加 第 3 台 ， 下 面 两 种 方式 都 行 : 


$ ./mongod --dbpath ~/dbs/node3 --port 10003 --replSet blort/ 

morton:10001 

$ ./mongod --dbpath ~/dbs/node3 --port 10003 --replSet blort/morton:10001, 
morton:10002 


副本 集 的 一 个 亮点 就 是 有 自 检 测 功能 : 在 其 中 指定 单 台 服务 器 后 ，MongoDB 就 会 
自动 搜索 并 连接 其 余 的 节点 。 
启动 了 几 台 服务 器 之 后 ， 日 志 就 会 告诉 你 副本 集 没 有 进行 初始 化 。 因 为 还 差 最 后 一 
步 : 在 shell 中 初始 化 副本 集 。 


在 shell， 连 接 其 中 一 个 服务 器 (下面 的 例子 中 使 用 morton:10001)。 初 始 化 命令 
只 能 执行 一 次 : 











$ ./mongo morton:10001/admin 
MongoDB shell version: 1.5.3 
connecting to localhost:10001/admin 
type "help" for help 
> db.runCommand ({"replSetIinitiate" : { 
Ul id" : nbplort", 
"members" : [ 


"td 1 
"most™ s mortons1io00r™ 


A A 
moet < Vmortonsto002" 


"info" : "Config now saved locally. Should come online in about a 
minute.", 
WO 二 De 


} 
这 个 初始 化 文档 略 显 复杂 ， 但 一 点 点 来 看 还 是 可 以 理解 的 。 


"_id" : "blort" 


副本 集 的 名 字 。 








"members" : [...] 

副本 集中 的 服务 嚣 列表。 过 后 还 能 添加 。 每 个 服务 器 文档 至 少 有 两 个 键 。 
i | 

每 个 服务 器 的 唯一 ID。 


"host" : hostname 
这 个 键 指定 服务 器 主机 。 


现在 查看 日 志 看 看 哪 一 台 被 选 为 活跃 市 点 。 





再 连接 一 下 别 的 机 器 ， 查 询 一 下 命名 空间 local.system.replset， 会 发 现 配置 会 在 服务 
器 间 相 互 传递 。 











撰写 本 书 时 ， 副 本 集 还 在 开发 中 ， 还 没有 进入 MongoDB 的 生产 版 本 。 因 
心 。 此 ， 这 里 的 信息 难免 会 有 变化 。 关 于 副本 集 最 新 的 文档 详 见 MongoDB wiki 
(http://www. mongodb.org/display/DOCS/VReplica+Sets ) 。 
































9.2.2 副本 集中 的 节点 
任何 时 间 ， 集 群 只 有 一 个 活跃 节点 ， 其 他 的 都 为 备份 节点 。 活 跃 节 点 实际 上 是 活跃 
服务 器 ， 这 里 的 不 同 是 ， 指 定 的 活跃 节点 可 以 随时 间 而 改变 。 
有 几 种 不 同类 型 的 节点 可 以 存在 于 副本 集中 。 
。 standard 
这 种 就 是 常规 节点 ， 它 存储 一 份 完整 的 数据 副本 ， 参 与 选举 投票 ， 有 可 能 成 为 
活跃 节点 。 


。 passive 


存储 了 完整 的 数据 副本 ， 参 与 投票 ， 不 能 成 为 活跃 节点 。 


。 arbiter 


仲裁 者 只 参与 投票 ， 不 接收 复制 的 数据 ， 也 不 能 成 为 活跃 节点 。 





标准 节点 和 被 动 节点 之 间 的 区 别 仅仅 就 是 数量 的 差别 ， 每 个 参与 节点 〈 非 仲裁 者 ) 
有 个 优先 权 。 优 先 权 为 0 则 是 被 动 的 ， 不 能 成 为 活跃 节点 。 优 先 值 不 为 0， 则 按照 
由 大 到 小 选 出 活跃 节点 ， 优 先 值 一 样 的 话 则 看 谁 的 数据 比较 新 。 所 以 ， 要 是 有 两 个 
优先 值 为 1 和 一 个 优先 值 为 0.5 的 市 点 ， 最 后 一 个 市 点 只 有 在 前 两 个 市 点 都 不 可 用 
的 时 候 才 能 成 为 活跃 节点 。 








在 节点 配置 中 修改 priority 键 ， 来 配置 成 标准 市 点 或 者 被 动 市 点 。 


> members.push({ 


mE 
: host” : "morton: 10003"., 
;7 OEE 坏人 


}) ; 
默认 优先 级 为 1， 可 以 是 0 ~ 1000 ( 含 )。 
"arbiteronly" 键 可 以 指定 仲裁 节点 。 


> members.push({ 
vd 二 光 ， 
和 0904w%， 
. "arbiterOonly" : true 


5 
下 一 节 将 进一步 介绍 仲裁 节点 。 


备份 节点 会 从 活跃 节点 抽取 oplog， 并 执行 操作 ， 就 像 活跃 备份 系统 中 的 备份 服 
务 器 一 样 。 活 跃 节 点 也 会 写 操作 到 自己 的 本 地 oplog， 这 样 就 能 成 为 活跃 节点 了 。 
oplog 中 的 操作 也 包括 严格 递增 的 序号 。 通 过 这 个 序号 来 判定 数据 的 时 效 性 。 


9.2.3 故障 切换 和 活跃 节点 选举 

如 果 活 跃 节 点 坏 了 ， 其 余 节 点 会 选 一 个 新 的 话 跃 节点 出 来 。 选 举 过 程 可 以 由 任何 非 话 
跃 节点 发 起 。 新 的 活跃 节点 由 副本 集中 的 大 多 数 选举 产生 。 仲 裁 节点 也 会 参与 投票 ， 
避免 出 现 僵局 (比如 ， 当 网 络 分 割 ， 参 与 节点 被 分 成 两 半 时 )。 新 的 活跃 节点 将 是 优 
先 级 最 高 的 节点 ， 优 先 级 相同 则 数据 较 新 的 节点 获胜 〈 详 见 图 9-6 ~ 图 9-8) 。 





备份 备份 


优先 级 : 0 优先 级 0 














图 9-6: 副本 集 有 多 个 不 同 优先 级 的 服务 器 
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备份 备份 
优先 级 ; 0 优先 级 : 0 


图 9-7: 活跃 节点 坏 了 ， 具 有 最 高 优先 级 的 服务 器 会 比较 数据 的 新 旧 程 度 











备份 活跃 
优先 级 : 1 优先 级 : 1 





4 省 
8 
优先 级 : 0 优先 级 : 0 


图 9-8: 优先 级 最 高 且 数 据 最 新 的 服务 器 成 为 活跃 节点 

活跃 节点 使 用 心跳 来 跟踪 集群 中 有 多 少 市 点 对 其 可 见 。 如 果 不 够 半数 ， 活 跃 节 点 会 自 
动 降 为 备份 节点 。 这 样 就 能 防止 活跃 节点 一 直 不 放权 ， 比 如 当 网 络 分 割 后 已 经 与 集群 
隔离 开 的 时 候 。 








不 论 活跃 节点 何 时 变化 ， 新 活跃 节点 的 数据 就 被 假定 为 系统 的 最 新 数据 。 对 其 他 节点 
( 即 原来 的 活跃 节点 ) 的 操作 都 会 回 深 ， 即 便 是 之 前 的 活跃 节点 已 经 恢复 工作 了 。 为 了 完 
成 回 滚 ， 所 有 节点 连接 新 的 活跃 节点 后 要 重新 间 步 。 这 些 节 点 会 查看 自己 的 oplog， 找 出 
其 中 活跃 节点 没有 执行 过 的 操作 ， 然 后 向 活跃 节点 请 求 这 些 操 作 影 响 的 文档 的 最 新 副本 。 
正在 执行 重新 同步 的 节点 被 视 为 恢复 中 ， 在 完成 这 个 过 程 之 前 不 能 成 为 活跃 节点 候选 者 。 


9.3 在 从 服务 器 上 执行 操作 


从 市 点 的 主要 作用 是 作为 故障 恢复 机 制 ， 以 防 主 闻 点 数据 丢失 或 者 停止 服务 。 但 是 
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还 有 些 别 的 用 法 。 从 节点 可 用 做 备份 的 数据 源 〈 详 见 第 8 章 )。 也 可 以 用 来 扩展 读 取 
全能， 或 是 进行 数据 处 理 。 


| 


ei 


9.3.1 读 扩展 


用 MongoDB 扩展 读 取 的 一 种 方式 就 是 将 查询 放 在 从 节点 上 。 这 样 ， 主 节点 的 负载 

就 减轻 了 。 一 般 说 来 ， 当 负载 是 读 取 密 集 型 时 这 是 非常 不 错 的 方案 。 要 是 写 入 密集 

型 ， 则 要 参见 第 10 章 ， 了 解 怎 样 用 自动 分 片 来 进行 扩展 。 

忆 使 用 从 节点 来 扩展 MongoDB 的 读 取 有 个 要 点 ， 就 是 数据 复制 并 不 同步 。 

人 Q 4 。 也 就 是 说 在 主 节点 插入 和 更 新 数据 后 ， 有 片刻 从 节点 的 数据 不 是 最 新 的 。 
心 ， 在 考虑 用 查询 从 节点 完成 请 求 时 这 点 非常 重要 。 

















扩展 读 取 本 身 很 简单 : 还 像 往常 一 样 设置 主 从 复制 ， 连 接 从 服务 器 处 理 请 求 。 唯 一 
的 技巧 就 是 有 个 特殊 的 查询 选项 ， 告 诉 从 服务 器 是 否 可 以 处 理 请 求 。( 黑 认 是 不 可 以 
的 。) 这 个 选项 叫做 slaveokay， 所 有 的 MongoDB 驱动 程序 都 提供 了 一 种 机 制 来 
设置 它 。 有 些 驱 动 程序 还 提供 工具 使 得 将 请 求 分 布 到 从 布点 的 过 程 自 动 化 ， 但 这 个 
过 程 随 驱 动 程序 的 不 同 而 不 同 。 








9.3.2 用 从 节点 做 数据 处 理 


从 市 点 的 另外 一 个 用 途 就 是 作为 一 种 机 制 来 减轻 密集 型 处 理 的 负载 ， 或 作为 聚 
合 ， 避 免 影响 主 节 点 的 性 能 。 用 - -master 参数 启动 一 个 普通 的 从 节点 。 同 时 使 用 
--slave 和 --master 有 点 了 矛盾。 这 意味 着 如 果 能 对 从 市 点 进行 写 入 、 像 往常 一 样 
查询 ， 就 把 它 作 为 一 个 普通 的 MongoDB 主 节点 好 了 。 从 节点 还 是 会 不 断 地 从 真正 
的 主 节 点 复制 数据 。 这 样 ， 就 可 以 对 从 节点 执行 阻塞 操作 而 不 影响 主 市 点 的 性 能 。 

















| 用 这 种 技术 的 时 候 ， 一 定 要 确保 不 能 对 正在 复制 主 节点 数据 的 从 节点 上 的 
-> 数据 库 执行 写 入 。 从 市 点 不 能 恢复 这 些 操 作 ， 就 不 能 正确 地 映射 主 布 点 。 

从 节点 第 一 次 启动 时 也 不 能 有 正 被 复制 的 数据 库 。 要 是 有 的 话 ， 这 个 数据 
库 就 不 能 完成 同步 了 ， 只 能 更 新 新 的 操作 。 


9.4 工作 原理 


总 的 说 来 ， MongoDB 的 复制 至 少 需 要 两 个 服务 器 或 者 市 点 。 其 中 一 个 是 主 市 点 ， 负 
责 处 理 客户 端 请 求 ， 其 他 的 都 是 从 市 点 ， 负 责 映 射 主 市 点 的 数据 。 主 市 点 记录 在 其 上 
执行 的 所 有 操作 。 从 节点 定期 轮 询 主 节点 获得 这 些 操 作 ， 然 后 对 自己 的 数据 副本 执行 
这 些 操作 。 由 于 和 主 节 点 执行 了 相同 的 操作 ， 从 市 点 就 能 保持 与 主 节 点 的 数据 同步 。 
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9.4.1 oplog 


主 节 点 的 操作 记录 称 为 oplog (operation log 的 简写 ) 。oplog 存储 在 一 个 特殊 的 数据 
库 中 ， 叫 做 local。oplog 就 在 其 中 的 oplog .$main 集合 里 面 。oplog 中 的 每 个 文档 
都 代表 主 节 点 上 执行 的 一 个 操作 。 文 档 包 含 的 键 如 下 。 

。 ts 

操作 的 时 间 稚 。 时 间 蕉 是 一 种 内 部 类 型 ， 用 于 跟踪 操作 执行 的 上 时间。 由 4 字 布 

的 时 间 惟 和 4 字 节 的 递增 计数 器 构成 。 








。 op 
操作 类 型 ,只 有 1 字 节 代码 。( 例 如 “i” 代 表 插 入 ) 


a ns 
执行 操作 的 命名 空间 (集合 名 )。 
a O 〇 


进一步 指定 要 执行 的 操作 的 文档 。 对 插入 来 说 ， 就 是 要 插入 的 文档 。 


需要 重点 强调 的 是 oplog 只 记录 改变 数据 库 状态 的 操作 。 比 如 ， 查 询 就 不 再 存储 在 
oplog 中 。 这 是 因为 oplog 只 是 作为 从 节点 与 主 节点 保持 数据 同步 的 机 制 。 


存储 在 oplog 中 的 操作 也 不 是 完全 和 主 市 点 的 操作 一 模 一 样 的 。 这 些 操作 在 存储 之 前 
先 要 做 等 寡 变 换 ， 也 就 是 说 ， 这 些 操作 可 以 在 从 服务 器 端 多 次 执行 ， 只 要 顺序 是 对 的 ， 
就 不 会 有 问题 。 例 如 ,使 用 "$inc" 执行 的 增加 更 新 操作 ， 会 被 转换 成 "$set" 操作 。 


另外 一 点 要 注意 的 就 是 ，oplog 存储 在 固定 集合 中 ( 详 见 7.2 节 )。 由 于 新 操作 也 会 
存储 在 oplog 里 ， 它 们 会 自动 替换 旧 的 操作 。 这 样 就 能 保证 oplog 不 超过 预先 设 定 
的 大 小 。 启 动 服务 器 时 可 以 用 - -oplogsize 指定 这 个 大 小 ， 单 位 是 MB。 上 默认 情况 
下 ，64 位 的 实例 将 使 用 oplog 5% 的 可 用 空间 。 这 个 空间 将 在 local 数据 库 中 分 配 ， 
并 在 服务 器 启动 时 预先 分 配 。 




















9.4.2 同步 

从 节点 第 一 次 启动 时 ， 会 对 主 节 点 数据 进行 完整 的 同步 。 从 节点 复制 主 节点 上 的 每 
个 文档 ， 耗 费 的 资源 可 想 而 知 。 同 步 完 成 后 ， 从 节点 开始 查询 主 节 点 的 oplog 并 执 
行 这 些 操作 ， 以 保证 数据 是 最 新 的 。 

如 果 从 节点 的 操作 已 经 被 主 节 点 落下 很 远 了 ， 从 节点 就 跟 不 上 同步 了 。 跟 不 上 同步 的 
从 节点 无 法 一 直 不 断 地 追赶 主 节 点 ， 因 为 主 节 点 oplog 的 所 有 操作 都 大 “新 ”了 。 从 
节点 发 生 了 宕 机 或 者 疲 于 应付 读 取 时 就 会 出 现 这 种 情况 。 也 会 在 执行 完 完整 同 步 以 后 
发 生 类 似 的 事 ， 因 为 只 要 同步 时 间 太 长 ， 同 步 完 成 时 ，oplog 可 能 已 经 滚 了 一 圈 了 。 
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从 市 点 跟 不 上 同步 时 ， 复 制 就 会 停 下 ， 从 市 点 需要 重新 做 完整 的 同步 。 可 以 用 {"'resync" 
1} 命令 手动 执行 重新 同步 ， 也 可 以 在 启动 从 节点 时 使 用 --autoresync 选项 让 其 自动 
重新 则 步 。 重 新 同步 代价 高 昂 ， 所 以 要 尽量 避免 ， 方 法 就 是 配置 足够 大 的 oplog。 


为 了 避免 从 市 点 跟 不 上 ， 一定 要 确保 主 节 点 的 oplog 足够 大 ， 能 存放 相当 长 时 间 的 操 
作 记 录 。 大 的 oplog 显然 会 占用 更 多 的 磁盘 空间 ， 这 就 需要 权衡 一 下 ， 找 个 折 中 点 
(默认 的 oplog 大 小 是 剩余 磁盘 空间 的 5%)。 关 于 oplog 大 小 的 相关 事宜 ， 参 见 9.5 市 。 


9.4.3 复制 状态 和 本 地 数据 库 
本 地 数据 库 用 来 存放 所 有 内 部 复制 状态 ， 主 节点 和 从 节点 都 有 。 本 地 数据 库 的 名 字 就 是 
local， 其 内 容 不 会 被 复制 。 这 样 就 能 确保 一 个 MongoDB 服务 器 只 有 一 个 本 地 数据 库 。 





本 地 数据 库 不 限于 存放 MongoDB 的 内 部 状态 。 如 果 有 不 想 被 复制 的 文档 ， 
心 。 也 可 以 将 其 放 在 本 地 数据 库 的 集合 里 面 。 


0, 








点 上 的 复制 状态 还 包括 从 节点 的 列表 (从 节点 连接 主 节点 时 会 执行 nandshake 
进行 握手 )。 这 个 列表 存放 在 slaves 集合 中 : 


主 节 
命令 


> db.slaves.fing() 


{ " id" :ObjectIid("4c1287178800e893d18585676"), "host™ 3 "127,.0.0.,1", 
"Sm : "local.oplog. smain", "syncedTo™" : { "t" ; 1276282710000, "i" 

1 1})} 

{ v id » ObjeetIid("4c128730e6e5c3096ft40e0de"); "hosty 3: v1270.051", 
"ns" : "local.oplog.$main", "syncedTo" : { "t" : 1276282710000, "i" 





从 节点 也 在 本 地 数据 库 中 存放 状态 。 在 me 集合 中 存放 从 节点 的 唯一 标识 符 ， 在 
sources 集合 中 存放 源 或 节点 的 列表 。 


> db.sources.findgd() 


{ We ei : ObjectIid("4c1287178e00e93d1858567b"), "host" 
vocalhost:27017". 
"source" : "main", "syncedTo" : { ET 3 T276283096000,. TE 于 下 
TOGalLogTer SE 0 


主 节点 和 从 节点 都 跟踪 从 节点 的 更 新 状况 ， 这 是 通过 存放 在 "syncedTo" 中 的 时 间 
截 来 完成 的 。 每 次 从 节点 查询 主 节 点 的 oplog 时 ， 都 会 用 "syncedTo" 来 确定 哪些 
操作 需要 执行 ， 或 者 查看 是 否 已 经 跟 不 上 同步 了 。 





9.4.4 阻塞 复制 
开发 者 可 以 用 getLastError 的 "w" 参数 来 确保 数据 的 同步 性 。 这 里 运行 getLast- 
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Error 会 进入 阻塞 状态 ， 直 到 N 个 服务 器 复制 了 最 新 的 写 入 操作 为 止 。 


> db.runCommand ({getLastError: 1, w: N}); 





如 果 没 有 NN， 或 者 小 于 2， 命令 就 会 立刻 返回 。 如 果 N 等 于 2， 主 节点 要 等 到 至 少 一 
个 从 节点 复制 了 上 个 操作 才 会 响应 命令 〈 主 节点 本 身 也 包括 在 YX 里 面 )。 主 节点 使 用 
local.slaves 中 存放 的 "syncedTo" 信息 跟踪 从 节点 的 更 新 情况 。 


当 指 定 "w" 选项 后 ， 还 可 以 使 用 "wtimeout" 选项 ， 表 示 以 毫秒 为 单位 的 超时 。 
getLastError 就 能 在 上 一 个 操作 复制 到 w 个 节点 超时 时 返回 错误 (默认 情况 下 命 
令 是 没有 超时 的 ) 。 
阻塞 复制 会 导致 写 操作 明显 变 慢 ， 尤 其 是 "w" 的 值 比 较 大 时 。 实 际 上 ， 对 重要 操作 
将 其 值 设 为 2 或 者 3 就 能 效率 与 安全 兼备 了 。 








9.5.1 诊断 
MongoDB 包含 很 多 有 用 的 管理 工具 ， 用 以 查看 复制 的 状态 。 当 连接 到 主 节 点 后 ， 
使 用 db.printReplicationInfo 国 数 : 





> db.printReplicationInfo(); 
configured oplog size: 10.48576MB 
log length start to end: 34secs (0.01lhrs) 
oplog first event time: Tue Mar 30 2010 16:42:57 GMT-0400 (EDT) 
oplog last event time: Tue Mar 30 2010 16:43:31 GMT-0400 (EDT) 
now: Tue Mar 30 2010 16:43:37 GMT-0400 (EDT) 











这 些 信息 是 oplog 的 大 小 和 oplog 中 操作 的 时 间 范 围 。 例 子 中 的 oplog 大 约 是 10 MB， 
仅 能 放置 大 约 30 秒 的 操作 。 差 不 多 是 时 候 为 oplog 扩容 了 ( 详 见 下 节 )。oplog 的 长 度 
至 少 要 能 请 足 一 次 完整 的 重新 同步 。 不 然 ， 从 节点 同步 (或 者 重新 同步 ) 完成 后 发 现 
已 经 跟 不 上 了 。 





日 志 的 长 度 是 通过 oplog 中 最 早 的 操作 时 间 和 最 后 的 操作 时 间 的 差 值得 到 
心 。 的 。 如 果 刚 刚 启动 服务 器 ， 最 早 的 操作 会 相对 较 新 。 这 时 ， 日 志 的 长 度 就 
壤 ， 会 很 小 ,即便 oplog 可 能 还 有 空闲 空间 也 是 如 此 。 所 以 说 ， 当 服务 器 跑 了 

一 段 时 间 ， 日 志 已 经 转 了 个 来 回 ， 这 时 日 志 长 度 才 能 准确 度量 记录 的 时 间 。 























当 连 接 到 从 节点 时 ， 用 db.printSlaveReplicationInfo() 函数 ， 能 得 到 从 节点 





的 一 些 信息 : 


> db.printSlaveReplicationInfo(); 
source: localhost:27017 
syncedTo: Tue Mar 30 2010 16:44:01 GMT-0400 (EDT) 
= 12secs ago (Ohrs) 


显示 的 是 从 市 点 的 数据 源 列表 ， 其 中 有 数据 谐 后 时 间 。 本 例 中 只 沸 后 12 秒 。 


9.5.2 ”变更 oplog 的 大 小 
车 已 经 发 现 oplog 大 小 不 合适 ， 最 简单 的 做 法 就 是 停 掉 主 节 点 ， 删 除 local 数据 库 的 
文件 ， 用 新 的 设置 (--oplogsize) 重新 启动 。 过 程 如 下 : 


$ rm /data/db/local.* 
$ ./mongod --master --oplogSize size 
size is specified in megabytes. 








ns - 为 大 型 的 oplog 预 分 配 空间 非常 耗费 时 间 ， 且 可 能 导致 主 节 点 停机 时 间 增 加 ， 
a、 所 以 尽 可 能 手动 预 分 配 数据 文件 。 关 于 停止 复制 (http:/www.mongodb.org/ 
SS 4 » display/DOCS/Halted+Replication) ， 详 见 MongoDB 帮助 文档 。 

















重启 主 节 点 之 后 ， 所 有 从 节点 得 用 - -autoresync 重启 ， 否 则 需要 手动 重新 则 步 。 


9.5.3 复制 的 认证 问题 

如 果 在 复制 中 使 用 了 认证 〈 详 见 8.3.1 节 )， 还 需要 做 些 配 置 ， 使 得 从 节点 能 够 访问 主 
节点 的 数据 。 在 主 节 点 和 从 节点 上 都 需要 在 本 地 数据 库 添加 用 户 ， 每 个 节点 的 用 户 名 
和 口令 都 是 相同 的 。 本 地 数据 库 的 用 户 类 似 admin 中 的 用 户 ， 能 够 读 写 整个 服务 器 





从 节点 连接 主 节 点 时 ， 会 用 存储 在 local.system.users 中 的 用 户 进行 认证 。 最 
先 尝 试 “repl” 用 户 ， 若 没有 此 用 户 ， 则 用 Iocal .system.users 中 的 第 一 个 可 用 
用 户 。 所 以 ， 按 照 如 下 步骤 配置 主 布点 和 从 市 点 ， 用 可 靠 的 密码 替换 passwora， 
就 能 配置 认证 复制 了 : 

> use local 

switched to db local 


> db.add User ("repl", password); 


{ 


UMSeE 3 WEEPLEY; 
"FeadOnly" : false, 
1 pwd TT : TT a nh 


} 
从 而 点 之 后 就 可 以 复制 主 闻 点 了 。 





器 
S 
贡 
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分 片 是 MongoDB 的 扩展 方式 。 通 过 分 片 能 够 增加 更 多 的 机 器 来 应 对 不 断 增 加 的 负 
载 和 数据 ， 还 不 影响 应 用 。 


10.1 分 片 简介 


分 片 (sharding) 是 指 将 数据 拆 分 ， 将 其 分 散 存在 不 同 的 机 器 上 的 过 程 。 有 时 也 用 
分 区 (partitioning) 来 表示 这 个 概念 。 将 数据 分 散 到 不 同 的 机 器 上 ， 不 需要 功能 强 
大 的 大 型 计算 机 就 可 以 储存 更 多 的 数据 ， 处 理 更 大 的 负载 。 


使 用 几乎 所 有 数据 库 软 件 都 能 进行 手动 分 片 。 应 用 需要 维护 与 若干 不 同 数据 库 服务 器 
的 连接 ， 每 个 连接 还 是 完全 独立 的 。 应 用 程序 管理 不 同 服务 器 上 的 不 同 数 据 ， 存 储 查 
询 都 需要 在 正确 的 服务 器 上 进行 。 这 种 方法 可 以 很 好 地 工作 ， 但 是 非常 难以 维护 ， 比 
如 向 集群 添加 节点 或 从 集群 删除 节点 都 很 困难 ， 调 整数 据 分 布 和 负载 模式 也 不 轻松 。 


MongoDB 支持 自动 分 片 ， 可 以 摆脱 手动 分 片 的 管理 困扰 。 集 群 自动 切 分 数据 ， 做 负 
载 均衡 。 在 本 书 的 剩余 部 分 里 (以 及 差不多 其 他 所 有 MongoDB 的 文档 中 ) ， 分 片 和 自 
动 分 片 是 混用 的 ， 意 思 是 一 样 的 ， 但 是 要 清楚 应 用 中 自动 分 片 和 手动 分 片 的 差别 。 


10.2 ”MongoDB 中 的 自动 分 片 


MongoDB 分 片 的 基本 思想 就 是 将 集合 切 分 成 小 块 。 这 些 块 分 散 到 若干 片 里 面 ， 每 
个 片 只 负责 总 数据 的 一 部 分 。 应 用 程序 不 必 知 道 哪 片 对 应 哪些 数据 ， 其 至 不 需要 知 
道 数 据 已 经 被 拆 分 了 ， 所 以 在 分 片 之 前 要 运行 一 个 路 由 进程 ， 该 进程 名 为 mongos。 
这 个 路 由 器 知道 所 有 数据 的 存放 位 置 ， 所 以 应 用 可 以 连接 它 来 正常 发 送 请 求 。 对 应 
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用 来 说 ， 它 仅 知道 连接 了 一 个 普通 的 mongoda。 路 由 器 知道 数据 和 片 的 对 应 关系 ， 
能 够 转发 请 求 到 正确 的 片上 。 如 果 请 求 有 了 回应 ， 路 由 器 将 其 收集 起 来 回 送 给 应 用 。 
在 没有 分 片 的 时 候 ， 客 户 端 连接 mongod 进程 ， 如 图 10-1 所 示 。 分 片 时 客户 端 会 连 
接 mongos 进程 ， 如 图 10-2 所 示 。mongos 对 应 用 隐藏 了 分 片 的 细节 。 从 应 用 角度 
看 ， 分 片 不 分 片 没 什么 差别 。 所 以 需要 扩展 的 时 候 ， 不 必修 改 应 用 程序 的 代码 。 




















图 10-1: 不 分 片 的 客户 端 连 接 




















图 10-2: 分 片 的 客户 端 连 接 
二 
、 如 果 现 在 还 用 的 是 老 版 本 的 MongoDB ， 最 好 升级 到 1.6.0 以 上 版 本 ， 之 后 
候 4 。 再 用 分 片 。 分 片 虽 存 在 了 一 段 时 间 了 ， 但 是 从 1.6.0 后 才 是 生产 版 本 。 
9, 
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何 时 分 片 
常见 问题 就 是 什么 时 间 开始 分 片 呢 。 出 现下 面 的 信号 时 ， 就 要 考虑 使 用 分 片 了 。 


。 机 器 的 磁盘 不 够 用 了 。 
。 单个 mongod 已 经 不 能 满足 写 数据 的 性 能 需要 了 。 
。 想 将 大 量 数据 放 在 内 存 中 提高 性 能 。 


一 般 说 来 ， 先 要 从 不 分 片 开始 ， 然 后 在 需要 时 将 其 转换 成 分 片 的 。 


10.3 ”上 捕 键 


设置 分 片 时 ， 需 要 从 集合 里 面 选 一 个 键 ， 用 该 键 的 值 作为 数据 拆 分 的 依据 。 这 个 键 
称 为 片 键 (shard key ) 。 





用 个 例子 来 说 明 这 个 过 程 : 假设 有 个 文档 集合 表示 的 是 人 员 。 如 果 选 择 名 字 
("name") 作为 片 键 ， 第 一 片 可 能 会 存放 名 字 以 A~F 开头 的 文档 ， 第 二 片 存 的 G~P 
的 名 字 ， 第 三 片 存 的 Q~Z 的 名 字 。 随 着 添加 (或 者 删除 ) 片 ，MongoDB 会 重新 平 
衡 数据 ， 使 每 片 的 流量 都 比较 均衡 ， 数 据 量 也 在 合理 范围 内 〈 例 如 ， 流量 比 较 大 的 
片 存放 的 数据 或 许 会 比 流量 小 的 片 数 据 量 要 少 些 )。 


10.3.1 将 已 有 的 集合 分 片 

假设 有 个 存储 日 志 的 集合 ， 现 在 要 分 片 。 我 们 开启 分 片 功能 ， 然 后 告诉 MongoDB 
用 "timestamp" 作为 片 键 ， 就 把 所 有 数据 放 到 了 一 个 片上 。 可 以 随意 插入 数据 ， 
但 总 会 是 在 一 个 片上 。 

而 后 ， 增 加 一 个 片 。 这 个 片 建 好 并 运行 了 以 后 ，MongoDB 就 会 把 集合 拆 分 成 两 半 ， 
称 为 块 。 每 个 块 中 包括 片 键 值 在 一 定 范 围 内 的 所 有 文档 ， 所 以 就 假设 其 中 一 块 包含 
时 间 惟 在 2003 年 6 月 26 日 以 前 的 文档 ， 另 一 块 含 有 2003 年 6 月 27 日 以 后 的 文 
档 。 其 中 一 块 会 被 移动 到 新 片上 。 


如 果 新 文档 的 时 间 戳 在 2003 年 6 月 27 日 之 前 ， 则 添加 到 第 一 个 块 ， 否 则 就 加 到 另 一 个 块 。 


10.3.2 ”递增 片 键 还 是 随机 片 键 
片 键 的 选择 决定 了 插入 操作 在 片 之 间 的 分 布 。 


如 果 选 择 了 像 "timestamp" 这 样 的 键 ， 这 个 值 很 可 能 不 断 增长 ， 而 且 没 有 太 大 的 
间断 ， 就 会 将 所 有 数据 发 送 到 一 个 片上 (含有 [2003 年 6 月 27 日 ，% ] 的 那 片 )。 
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要 知道 ， 如 果 又 添加 了 新 片 ， 再 拆 分 数据 ， 还 是 会 都 插入 到 一 台 服 务 器 上 。 添 加 
了 新 片 ，MongoDB 可 能 会 将 [2003 年 6 月 27 日 ，% ] 拆 分 成 [2003 年 6 月 27 日， 
2010 年 12 月 12 日 ] 和 [2010 年 12 月 12 日 ，%w ]。 最 后 还 是 只 用 “至 此 以 后 ”的 
那个 片 来 插入 。 这 就 不 适合 写 入 负载 很 高 的 情况 了 ， 但 按照 片 键 查询 会 非常 高 效 。 
如 果 写 入 负载 比较 高 ， 想 均匀 分 散 负载 到 各 个 片 ， 就 得 选择 分 布 均匀 的 片 键 。 日 志 的 
例子 中 时 间 惟 的 散 列 值 或 者 没有 特定 模式 的 "LogMessagen" 都 是 符合 这 个 条 件 的 。 
不 论 片 键 随 机 跳跃 还 是 稳定 增加 ， 片 键 的 变化 至 关 重 要 。 例 如 ， 如 果 有 个 
"logLevel" 键 只 有 3 种 值 "DEBUG"、"WARN" 或 "ERROR"，MongoDB 就 无 论 如何 
也 不 能 把 它 作为 片 键 将 数据 分 成 多 于 3 块 (因为 只 有 3 个 值 )。 如 果 键 的 变化 太 少 ， 
但 又 想 让 其 作为 片 键 ， 可 以 将 这 个 键 与 一 个 变化 较 大 的 键 组 合 起 来 ， 创 建 一 个 复合 片 
键 例如 "logLevel" 和 "timestamp" 组 合 。 


选择 片 键 并 创建 片 键 很 像 建 索 3|， 因 为 二 者 原理 类 似 。 事 实 上 ， 片 键 也 是 最 常用 的 索引 。 


10.3.3 ” 片 键 对 操作 的 影响 

最 终 用 户 应 该 无 法 区 分 是 否 分 片 。 然 而 ， 了 人 解 在 选择 不 同 片 键 的 情况 下 查询 有 何不 
同 ， 还 是 很 有 帮助 的 ， 尤 其 是 使 用 了 分 片 的 时 候 。 

假设 还 是 那个 上 一 节 所 说 的 集合 ， 按 照 "name" 分 片 ， 有 3 个 片 ， 其 名 字 首 字母 的 
范围 是 A~Z。 下 面 会 以 不 同 的 方式 执行 不 同 的 查询 ， 














db.people.find({"name" : "Susan"}) 


mongos 会 将 这 个 查询 直接 发 送 给 Q~Z 片 ， 获 得 响应 后 ， 直 接 转 发 给 客户 端 。 





db.people.find({"name" : {"SLIt" : "L"}} 
mongos 会 将 其 先后 发 送 给 A~F 和 G~P 片 。 然 后 将 结果 转发 给 客户 端 。 
db.people.find() .sort({"email" : 1}) 


mongos 会 在 所 有 片上 查询 ， 返 回 结 果 时 还 会 做 归并 排序 ， 确 保 结果 顺序 正确 。 
mongos 用 游标 从 各 个 服务 器 上 获取 数据 ， 所 以 不 必 等 到 全 部 数据 都 拿 到 才 向 客户 端 
发 送 批量 结果 。 


db.people.find({"email" : "joe@example.com"})) 


mongos 并 不 跟踪 "email" 键 ， 所 以 也 不 知道 应 该 将 查询 发 给 哪个 片 。 所 以 ， 它 就 
向 所 有 片 顺序 发 送 查 询 。 


如 果 插 入 文档 的 话 ， mongos 会 依据 "name" 键 的 值 ， 将 其 发 送 到 相应 的 片上 。 
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10.4 建立 分 片 
建立 分 片 有 两 步 : 启动 实际 的 服务 器 ， 然 后 决定 怎么 切 分 数据 。 
分 片 一 般 会 有 3 个 组 成 部 分 。 
。 片 
片 就 是 保存 子 集合 数据 的 容器 。 片 可 是 单个 的 mongod 服务 器 (开发 和 测试 
用 )， 也 可 以 是 副本 集 (生产 用 )。 所 以 ， 即 便 一 片 内 有 多 台 服 务 器 ， 也 只 能 有 
一 个 主 服务 器 ， 其 他 的 服务 器 保存 相同 的 数据 。 
。 mongos 
mongos 就 是 MongoDB 各 版 本 中 都 配 的 路 由 器 进程 。 它 路 由 所 有 请 求 ， 然 后 将 
结果 聚合 。 它 本 身 并 不 存储 数据 或 者 配置 信息 (但 会 缓存 配置 服务 器 的 信息 )。 
。 配置 服务 器 
配置 服务 器 存储 了 集群 的 配置 信息 : 数据 和 片 的 对 应 关系 。mongos 不 永久 存 
放 数 据 ， 所 以 需要 个 地 方 存放 分 片 配置 。 它 会 从 配置 服务 器 获取 同步 数据 。 
如 果 已 经 能 用 了 MongoDB ， 就 有 了 一 个 整装待发 的 片 了 (当前 的 mongod 可 以 变 成 
第 一 个 片 ) 。 下 一 节 会 介绍 如 何 从 头 建立 一 个 片 ， 但 这 不 是 表示 一 定 要 这 么 做 ， 从 已 
有 的 数据 库 开始 是 没 问题 的 。 


10.4.1 启动 服务 器 
首先 要 启动 配置 服务 器 和 mongos。 配 置 服 务 器 需要 最 先 启动 ， 因 为 mongos 会 用 到 
其 上 的 配置 信息 。 配 置 服务 器 的 启动 就 像 普 通 mongod 一 样 。 


$ mkdir -p ~/dbs/config 
$ ./mongod --dbpath ~/dbs/config --port 20000 


配置 服务 器 不 需要 很 多 空间 和 资源 (200 MB 实际 数据 大 约 占用 1 KB 的 配置 空间 )。 


现在 就 可 以 建立 mongos 进程 ， 以 供应 用 程序 连接 。 这 种 路 由 服务 器 连 数据 目录 都 
不 需要 ， 但 一 定 要 指明 配置 服务 器 的 位 置 ; 


$ ./mongos --port 30000 --configdb localhost:20000 


分 片 管 理 通 常 是 通过 mongos 完成 的 。 


添加 片 
片 就 是 普通 的 mongod 实例 (或 者 副本 集 ) : 











$ mkdir -p ~/dbs/shardl 
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$ ./mongod --dbpath ~/dqbs/shardl --port 10000 
现在 连接 刚才 启动 的 mongos， 为 集群 添加 一 个 片 。 启 动 shell， 连 接 mongos: 


$ ./mongo localhost:30000/admin 
MongoDB shell version: 1.6.0 

url: localhost:30000/admin 
connecting to localhost:30000/admin 
type "help" for help 


> 


确定 连接 的 是 mongos 而 不 是 mongod 后 ， 就 可 以 通过 addshard 命令 添加 片 了 : 














> db.runCommand( ({addshard : "Localhost:10000", allowLocal : true}) 
{ 

"added" : "localhost:10000", 

ok # true 


} 
当 在 localhost 上 运行 片 时 ， 得 设 定 "allowLocal" 键 。MongoDB 尽量 避免 由 于 
错误 配置 ， 将 集群 配置 到 本 地 ， 所 以 得 让 它 知道 这 仅仅 是 开发 ， 而 且 我 们 很 清楚 自 
己 在 做 什么 。 如 果 是 在 生产 环境 中 ， 则 要 将 其 部 署 在 不 同 的 机 器 上 (虽然 可 能 会 有 
交 者 ， 详 见 下 节 )。 


想 添 加 片 的 时 候 ， 就 运行 aadashard。MongoDB 会 负责 将 片 集成 到 集群 。 


10.4.2” 切 分 数据 

MongoDB 不 会 将 存储 的 每 一 条 数据 都 直接 发 布 ， 得 先 在 数据 库 和 集合 的 级 别 将 分 
片 功能 打开 。 下 面 的 例子 欲 以 " ia" 为 基准 切 分 foo 数据 库 的 bar 集合 。 首 先 得 开 
启 foo 的 分 片 功能 





> db.runCommand ({"enablesharding" : "foo"}) 


对 数据 库 分 片 后 ， 其 内 部 的 集合 便 会 存储 到 不 同 的 片上 ， 同 时 也 是 对 这 些 集 合 分 片 
的 前 置 条 件 。 


J 分 片 以 后 ， 就 可 以 使 用 shardcollection 命令 来 对 集合 进 
分 片 了 : 


> db.runCommand ({"shardcollection" : "foo.bar", "key" : {" id" : 1}}) 


这 样 集合 就 按照 "” ig" 分 片 了 。 再 添加 数据 ， 就 会 依据 "_ia" 的 值 自动 分 散 到 各 个 
片上 。 


10.5 生产 配置 


前 一 市 的 例子 对 于 尝试 分 片 开 发 而 言 还 是 不 错 的 。 但 应 用 进入 产品 环境 以 后 ， 就 需 











要 更 加 健壮 的 方案 了 。 成 功 地 构建 分 片 需要 如 下 条 件 。 


。 多 个 配置 服务 器 

a 多 个 mongos 服务 器 

。 每 个 片 都 是 副本 集 。 

。 正确 设置 w。( 有 关 w 和 复制 的 更 多 信息 ， 详 见 上 一 章 。) 


10.5.1 健壮 的 配置 


建立 多 个 配置 服务 器 是 非常 简单 的 。 本 书写 作 时 ， 可 以 建立 一 个 配置 服务 器 (开发 
用 ) 或 者 三 个 配置 服务 器 (生产 用 )。 


设置 多 个 配置 服务 器 和 设置 一 个 完全 一 样 ， 就 是 重复 3 次 而 已 : 











$ mkdir -p ~/dbs/configl ~/dbs/config2 ~/dbs/config3 
$ ./mongod --dbpath ~/dbs/configl --port 20001 
$ ./mongod --dbpath ~/dbs/config2 --port 20002 
$ ./mongod --dbpath ~/dbs/config3 --port 20003 


然后 ， 启 动 mongos 的 时 候 应 将 其 连接 到 这 3 个 配置 服务 器 : 


$ ./mongos --configdb localhost:20001,localhost:20002,1localhost:20003 


配置 服务 器 使 用 的 是 两 步 提交 机 制 ， 而 不 是 普通 MongoDB 的 异步 复制 ， 来 维护 集 
群 配置 的 不 同 副 本 。 这 样 能 保证 集群 状态 的 一 致 性。 这 也 意味 着 ， 某 台 配 置 服务 器 
宕 掉 了 以 后 ， 集 群 配置 信息 将 是 只 读 的 。 客 户 端 还 是 能 够 读 写 ， 但 是 只 有 所 有 配置 
服务 器 备份 了 以 后 才能 重新 均衡 数据 。 


10.5.2 ”多 个 mongos 


mongos 的 数量 不 受 限制 。 建 议 针 对 一 个 应 用 服务 器 只 运行 一 个 mongos 进程 。 这 样 
每 个 应 用 服务 器 就 可 以 与 mongos 进行 本 地 会 话 ， 如 果 服 务 器 不 工作 了 ， 就 不 会 有 
应 用 试图 与 不 在 的 mongos 通话 了 。 


10.5.3 ”健壮 的 片 
生产 环境 中 ， 每 个 片 都 应 是 副本 集 。 这 样 单个 的 服务 器 坏 了 ， 就 不 会 导致 整个 片 失效 。 用 
addshard 命令 就 可 以 将 副本 集 作为 片 添加 。 添 加 时 只 要 指定 副本 集 的 名 字 和 种 子 就 好 了 。 


比如 要 添加 副本 集 foo， 其 中 包含 一 个 服务 器 prod.example.com:27017 (还 有 别 的 
服务 器 ) ， 就 可 以 使 用 下 列 命 令 将 其 添加 到 集群 里 : 








> dqb .runCcommand ({"addqshard" : "foo/prod.example.com:27017"})) 
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如 果 prod.example.com 挂 了 ，mongos 会 知道 它 所 连接 的 是 一 个 副本 集 ， 并 会 使 用 
新 的 主 节 点 。 


10.5.4 ”物理 服务 器 

貌似 需要 太 多 机 器 了 : 3 个 配置 服务 器 ， 每 片 最 少 两 个 mongod， 还 有 若干 mongos 进 
程 。 但 是 这 些 不 一 定 都 需要 单独 的 服务 器 。 重 要 的 是 不 把 所 有 鸡蛋 放 在 一 个 篮子 里 。 
好 比 不 把 所 有 3 个 配置 服务 器 放 到 一 台 机 器 上 ， 不 把 所 有 mongos 放 到 一 台 机 器 上 ， 
不 把 这 个 副本 集 放 到 一 台 机 器 上 。 但 是 可 以 把 一 个 配置 服务 器 、 一 些 mongos 进程 和 
副本 集 的 一 个 节点 放 到 一 台 机 器 上 。 


10.6 管理 分 片 


分 片 信息 主要 存放 在 config 数据 库 上 ， 这 样 就 能 被 任何 连接 到 mongos 的 进程 访问 到 了 。 


10.6.1 配置 集合 
下 几 节 的 代码 都 假设 已 经 在 shell 中 连接 了 mongos， 并 且 已 经 运行 了 use config。 


1. 片 
可 以 在 shards 集合 中 查 到 所 有 的 片 : 
> db.shards.fing() 


{ an 2 "shard0", oatEn ss “localhost: 10000" } 
{ "id" : "shard1", "host" : "localhost:10001" } 





每 片 都 有 一 个 唯一 的 、 好 认 的 _iq。 


2. 数据 库 
databases 集合 含有 已 经 在 片上 的 数据 库 列 表 和 一 些 相关 信息 : 


> db.databases.find() 

{ "id" : "admin", "partitioned" : false, "primary" : "config" } 
{ "_id" : "foo", "partitioned" : false, "primary" : "shardl" } 

{ "id" : "x", "partitioned" : false, "primary" : "shard0" } 
{ 








nn id" : ntest"™, 
"partitioned" : true, 
"primary" : "shard0", 
"sharded" : { 
TEESt :E00 a | 
"key" : {ven : EE 
"unique" : false 








这 里 是 全 部 可 用 的 数据 库 和 一 些 基 本 信息 。 
® id 字符 串 
"_id" 表示 数据 名 。 
。 "partitioned", 布尔 型 
如 果 为 true， 则 表示 已 经 启用 分 片 功 能 。 
“ VorimaFY.s 字符 串 
这 个 值 与 片 的 "_ig" 相对 应 ， 表 明 这 个 数据 库 的 “大 本 营 ” 在 哪里 。 不 论 分 片 
与 否 ， 数 据 库 总 是 会 有 个 大 本 营 的 。 要 是 分 片 了 的 话 ， 创 建 数 据 库 时 会 随机 选择 
一 个 片 。 也 就 是 说 ， 大 本 营 是 开始 创建 数据 库 文件 的 位 置 。 虽 然 分 片 时 数据 库 也 
会 用 到 很 多 别 的 服务 器 ， 但 会 从 这 个 片 开 始 。 


3. 块 
块 信息 保存 在 chunks 集合 中 。 这 有 很 多 有 趣 的 东西 ， 也 可 以 看 到 数据 到 底 是 怎么 
切 分 到 集群 的 : 


> db.chunks.fingd() 


{ 





vw id "test.fo0=x MinkKkey", 


"lastmod" : { "t" : 1276636243000, "i" : 1 }, 
ns™ : Vtest.foo", 
"min" : { 
"x" : { SminKey : 1 } 
"max'" : { 
"x" : { $maxKey : 1 } 
上 
"shard" 3: vsehardO" 


单 块 的 集合 就 是 这 样 的 : 块 的 范围 从 - % (MinKey) 到 co (MaxKey) 。 


10.6.2 ”分 片 命令 

前 面 已 经 介绍 了 一 些 基本 命令 , 像 添 加 块 、 启 用 分 片 。 还 有 些 命令 对 于 管理 集群 也 非 
常 有 帮助 。 

1. 获得 概要 

printShardingStatus 给 出 前 面 说 的 那些 集合 的 概要 : 





> db.printShardingStatus () 

--- Sharding Status --- 
sharding version: { " id" : 1, "version" : 3 } 
shards: 
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{ 人 "id" : "shard0"，"host" : "localhost:10000" } 


{ "id" : "shard1i", "host" : "localhost:10001" } 
databases: 
{ "_id" : "admin", "partitioned" : false, "primary" : "config" } 
{ "_id" : "foo", "partitioned" : false, "primary" : "shardl" } 
{ "_id" : "x", "partitioned" : false, "primary" : "shard0" } 
{ " id" : "test", "partitioned" : true, "primary" : "shardo", 


sharded" : { "test.foo" : {"key" : {"x" :1}, "unique" : false} 
test.foo chunks: 


"Xun : {$minKey :1 -->> {"x" : {$maxKey : 1 on :shard0 
人 这 
{ TE x L276636243000, iw 1 } 


2. 删除 片 


用 removeshard 就 能 从 集群 中 删除 片 。removeshard 会 把 给 定 片 上 的 所 有 块 都 挪 
到 其 他 片上 。 





> db.runCommand ({"removeshard" : "localhost:10000"}); 
{ 
"started draining" : "localhost:10000", 
"ok" : 1 
} 
在 挪动 过 程 中 ，removeshard 会 显示 进程 : 
> db.runCommand ({"removeshard" : "localhost:10000"}); 
{ 
"msg" : "already draining...", 
"remaining" : { 
ehunke : 39, 
WY 
这 
"Ook" : 1 
} 
最 后 ， 挪 动 完 毕 ，removeshard 会 提示 片 已 被 成 功 删 除 。 


在 1.6.0 版 本 中 ， 如 果 删 除 的 片 是 数据 库 的 大 本 营 〈 基 片 )， 必 须 手 动 移动 
数据 库 (使 用 moveprimary 命令 ) : 


> db.runCommand ({"moveprimary" : "test", "to" 
"localhost:10001"}) 


{ 











"primary" : "Localhost:10001™, 
Die) ce 
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第 11 章 


应 用 举例 





本 书 前 面 所 举 的 例子 都 是 JavaScript 的 。 本 章 将 探索 实际 应 用 中 更 和 常用 的 语言 是 如 
何 与 MongoDB 配合 的 。 


11.1 化 学 品 搜 索引 擎 : Java 


Java 驱动 程序 是 MongoDB 最 早 的 驱动 。 它 已 经 用 于 生产 环境 多 年 ， 而 且 非常 稳定 ， 
是 企业 级 开发 的 首选 。 


下 面 会 使 用 Java 驱动 程序 构建 一 个 化 合 物 的 搜索 引擎 。 这 个 例子 受到 http://www. 
chemeo.com 网 站 的 启发 。 这 个 搜索 引擎 有 成 千 上 万 的 化 合 物 的 化 学 性 质 和 物理 性 
质 ， 其 目标 就 是 使 这 些 信息 全 部 能 够 被 搜索 到 。 





11.1.1 安装 Java 驱 动 程序 
Java 驱动 程序 是 一 个 JAR 文件 ， 可 以 从 Github (http://www.github.com/mongodb/ 
mongojava-driver/downloads) 上 下 载 。 将 这 个 JAR 加 入 到 类 路 径 中 完成 安装 。 


一 般 应 用 需要 使 用 的 所 有 Java 类 都 在 com.mongodb 和 com.mongodb.gridfs 两 
个 包 中 。.JAR 中 还 有 些 其 他 的 包 ， 当 想 要 修改 驱动 内 部 结构 或 是 扩展 功能 时 会 用 得 
到 ， 但 绝 大 部 分 应 用 都 不 会 用 到 。 





11.1.2 ”使 用 Java 驱 动 程序 
就 和 Java 里 的 大 部 分 东西 一 样 ， 这 个 API 有 点 喝 哑 (尤其 是 与 其 他 语言 的 API 相 
比 时 ) 。 然 而 ， 所 有 的 概念 都 类 似 于 使 用 shell， 几 乎 所 有 的 方法 名 都 是 完全 相同 的 。 
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com.mongodb .Mongo 类 会 与 MongoDB 服务 器 建立 连接 。 之 后 就 可 以 通过 集合 访 
问 数据 库 ， 然 后 获得 数据 库 的 连接 : 


import com.mongodb .Mongo ; 
Import com.mongodqb .DB; 
import com.mongodb .DBCollection; 


class ChemSearch { 


public static void main(String[] args) { 
Mongo connection = new Mongo(); 
DB db = connection.getDB ("search"),; 
DBCollection chemicals = db.getCollection("chemicals"); 
A 


} 


这 样 连接 的 是 localhost :27017， 并 得 到 命名 空间 search.chemicals。 


Java 中 的 文档 必须 是 org .bson.DBObject 的 实例 ，org .pson.DBObject 是 一 个 
接口 ， 可 认为 是 一 个 有 序 的 java.util.Map。 在 Java 中 有 多 种 创建 文档 的 方式 ， 

最 简单 的 要 数 用 com.mongodb.BasicDBObject 类 了 。 因 此 ， 创 建 能 由 shell 表示 
为 {rx" : 1，"y" : "foo") 的 这 种 文档 操作 如 下 : 


BasicDBObject doc = new BasicDBObject () ; 
doc put ("RK., 1) 





doc. BUC(V yr; VfOON):;y 
想 要 添加 内 骨 文 档 ， 如 "wz" : {"hello" : "world"}， 就 得 先 创建 另外 一 个 





BasicDBObject 对 象 ， 然 后 将 其 放 入 到 上 一 级 : 


BasicDBObject z = new BasicDBObject(); 


Put ("Nellor; WoOrLdr): 
do .put("z™", 2); 
这 样 就 有 了 文档 {rx" : 1 "ry" : "foo", "z" : {"hello" : "world"})}。 





所 有 Java 驱动 程序 实现 的 其 他 方法 都 和 shell 中 的 类 似 ， 例 如 可 以 用 chemicals . 
insert (doc) 或 者 chemicals.find(doc)。 完 整 的 Java 驱动 程序 的 API 文 档 位 
于 http://api.mongodb.org/java，MongoDB Java 语言 中 心 (http://www.mongodb.org/ 
display/DOCS/Java+Language+Center) 还 有 些 文章 介绍 了 另外 几 个 方面 的 话题 (并 
行 性 、 数 据 类 型 等 ) 。 


11.1.3 ”模式 设计 
这 个 问题 的 难点 在 于 每 种 化 学 物质 都 有 数 以 千 计 的 属性 ， 而 且 要 能 对 全 部 这 些 属性 
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做 快速 的 搜索 。 举 两 个 简单 的 例子 : 硅 和 所 化 硅 。 硅 的 文档 比较 简单 ; 


mame" : weilicon", 
mw L113 
= 上 下.” 
mw 表示 “分 子 量 ”。 


气 化 硅 就 会 有 很 多 属性 ， 所 以 它 的 文档 要 复杂 一 点 : 


{ 
"name" : "silicon nitride", 
Vmw" + 4 有 2 .0922., 
"AfH gas" : { 
nvalier ss 372.385 
"runits" : "kJ/mol" 
jy 
"Ss ‘gas™" : { 
"value" : 216.81, 
"unitsn : "J/mol XK" 
} 
} 


MognoDB 能 存放 任意 数量 、 任 意 属性 结构 的 化 学 物质 ， 这 样 应 用 就 能 轻易 扩展 ， 
但 目前 还 不 能 对 当前 的 格式 进行 有 效 的 索引 。 想 要 快速 搜索 属性 ， 就 得 对 几乎 所 有 


键 进行 索引 ! 基于 第 5 章 所 学 ， 就 能 判断 这 绝 不 是 一 个 好 主意 。 





不 过 还 是 有 办 法 的 。MongoDB 索引 会 将 数组 的 每 一 个 元 素 都 涵盖 进去 ， 利 用 这 一 
特点 ， 可 以 将 想 要 索引 的 属性 放 到 一 个 包含 常用 键 名 的 数组 中 。 例 如 ， 对 于 毛 化 硅 ， 
可 以 为 索引 添加 一 个 数组 ， 将 全 部 属性 放 到 数组 中 : 


{ 
"name" : "silicon nitride", 
mw 2 42.0922, 
"AfH” gas" : { 
"value" + 372.38; 
TuiiteaY 3 TMEV/MOLY™ 
js 
We "gas  ( 
"value" : 216.81, 
"units™ $ "WT/mol xK" 
}, 
"index" ; [ 
{"name"™ : "mw", "value" : 42.0922}, 
{"name" : "AfH gas", "value" : 372.38}, 
{"name" : "S” gas", "value" : 216.81} 
] 
} 


对 于 硅 ， 数 组 只 有 一 个 元 素 ， 就 是 分 子 量 : 
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nmame” 2: “silicon”", 
Mm 
"index" : [ 
{"name" : "mw", "value" : 32.1173} 





现在 只 要 创建 一 个 "index.name" 和 "index.value" 的 复合 索引 就 可 以 了 。 


就 能 很 快 地 搜索 化 学 品 的 任何 特性 了 。 


11.1.4 用 Java 实 现 
回 到 前 面 那 段 Java 代码 ， 现 在 使 用 ensureIndex 国 数 建 复合 索引 


BasicDBObject index = new BasicDBObject () ; 
index.put ("index.name", 1); 
index.put ("index.value", 1); 


chemicals.ensureIndex (index); 








创建 气 化 硅 的 文档 不 难 ， 但 是 很 繁琐 : 


public static DBObject createsiliconNitride() { 
BasicDBObject sn = new BasicDBObject () ; 
sn.put ("name", "silicon nitride"); 
sn.put ("mw", 42.0922);，; 


BasicDBObject deltafHgas = new BasicDBObject (); 
deltafHgas.put ("value", 372.38); 

deltafHgas.put ("units", "kJ/mol") 

sn.put ("AfH gas", deltafHgas); 

BasicDBObject sgas = new BasicDBObject (); 
sgas.put ("value", 216.81); 


sgas.put ("units", "J/mol XK"); 


sn.put("S gas", sgas); 


ArrayList<BasicDBObject> index = new ArrayList<BasicDBObject>(); 


index.add (BasicDBObjectBuilder.start() 
.add ("name", "mw") .add ("value", 42.0922) .get ())， 
index.add (BasicDBObjectBuilder.start() 


.add ("name", "AfH gas") .add ("value", 372.38) .get()):; 
index.add (BasicDBObjectBuilder.start() 

.add ("name'", "S’ gas") .add ("value", 216.81) .get ()); 
sn.put ("index", index); 


return sn; 


这 忆 


tk 
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只 要 实现 了 java.util.List， 就 可 以 用 来 表示 数组 ， 所 以 用 java.util. 
ArrayList 来 存放 表示 化 学 物质 属性 的 内 艇 文档 。 


11.1.5 ”一些 问题 


这 种 结构 的 一 个 问题 就 是 ， 如 果 查 询 含 有 多 个 条 件 ， 条 件 的 顺序 就 很 重要 。 比 如 要 
查找 分 子 量 小 于 1000、 沸 点 大 于 0"” 、 凝 固 点 是 -20 的 文档 ， 最 简单 的 做 法 就 是 用 
"$all" 将 所 有 查询 条 件 都 放 进去 : 


BasicDBObject criteria = new BasicDBObject () ; 








BasicDBObject all = new BasicDBObject (); 


BasicDBObject mw = new BasicDBObject ("name", "mw"); 
mw.put ("value", new BasicDBObject ("$1lt", 1000)); 


BasicDBObject bp = new BasicDBObject ("name", "bp"); 
bp.put ("value", new BasicDBObject("$gt", 0)); 








BasicDBObject fp = new BasicDBObject ("name", "fp"); 
fp.put ("value", -20)，; 


all.put ("$elemMatch", mw); 
all.put ("$elemMatch", bp); 
all.put ("$elemMatch", fp); 
criteria.put ("index", new BasicDBObject ("$all", all)); 


chemicals.find(criteria); 
这 样 做 的 问题 是 ，MongoDB 只 用 索引 来 辅助 "sall" 条 件 句 的 第 一 项 。 假 设 有 
一 百 万 个 文档 的 "mw" 值 小 于 1000。MongoDB 可 以 利用 索引 来 完成 这 部 分 查询 ， 
但 是 还 会 用 扫描 的 方式 查找 沸点 和 凝固 点 ， 这 就 会 花费 很 长 的 时 间 。 


要 是 已 知 数据 的 一 些 特征 ， 比 如 知道 只 有 43 种 化 学 物质 的 凝固 点 为 -20" ， 这 样 就 
可 以 调整 一 下 顺序 : 











all.put ("$elemMatch", fp); 
all.put ("$elemMatch", mw); 
all.put ("$elemMatch", bp); 
criteria.put ("index", new BasicDBObject ("$all", all)); 


这 样 数据 库 就 会 很 快 找到 43 个 元 素 ， 后 面 的 条 件 只 需要 扫描 43 个 元 素 就 好 了 (而 
不 是 一 百 万 个 元 素 )。 当 然 ， 找 出 所 有 查询 的 合理 顺序 相当 有 难度 ， 涉 及 模式 识别 和 
数据 聚合 算法 ， 这 些 内 容 超出 了 本 书 的 范畴 。 


11.2 ”新闻 聚合 器 : PHP 
接 下 来 会 创建 一 个 简单 的 新 闻 聚 合 器 应 用 : 用 户 提 交感 兴趣 的 站 点 的 链接 ， 其 他 用 
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户 可 以 评论 ， 对 链接 质量 发 起 投票 《也 包含 他 人 的 评论 ) 。 这 需要 建立 一 个 评论 树 和 
实现 一 个 投票 系统 。 


11.2.1 安装 PHP 驱 动 程序 
MongoDB 的 PHP 驱动 程序 是 一 个 PHP 扩展 。 在 绝 大 部 分 平台 下 都 很 容易 安装 。 
PHP 5.1 及 以 上 版 本 的 系统 就 可 以 了 。 


1. 在 Windows 下 安装 

先 要 查看 phpinfo () 的 输出 ， 看 看 运行 的 PHP 版 本 (在 Windows 下 只 支持 PHP 5.2 和 
5.3， 不 支持 5.1)， 包 括 VC 版 本 。 如 果 用 的 是 Apache， 则 需要 VC6， 否 则 需要 VC9。 
有 些 Zend 用 的 是 VC8。 还 要 注意 是 否 是 线程 安全 的 (thread-save， 通 常 缩写 为 “ts”)。 
看 phpinfo() 的 时 候 ， 留 意 extension dir 的 值 ， 一会儿 就 在 那里 安装 扩展 组 件 。 
现在 就 轻车熟路 了 ， 转 到 Github (http:www.github.com/mongodb/mongo-php-driver/ 
dow- nloads), 下 载 和 PHP 版 本 、VC 版 本 和 线程 安全 相 匹 配 的 包 。 解 压 ， 将 php_ 
mongo.dll 移动 到 extension_dir 目录 。 


最 后 在 php.ini 文件 中 添加 如 下 一 行 : 




















extension=php mongo.d1l 
如 果 启 动 了 应 用 服务 器 (Apache、WAMPP 等 )， 请 重启 一 下 。 下 次 启动 PHP 时 会 
自动 加 载 Mongo 扩展 。 
2. 在 Mac OS X 下 安装 
要 是 有 PECL 的 话 ， 这 是 安装 扩展 组 件 的 最 简单 方式 了 : 
$ pecl install mongo 
有 些 Mac 没有 自 带 PECL 或 者 安装 扩展 组 件 的 PHP 库 不 正确 。 


要 是 PECL 不 能 正常 工作 ， 可 以 下 载 为 OS X 编译 好 的 二 进 制 文件 ， 地 址 在 Github 
(http://www.github.com/mongodb/mongo-php-driver/downloads)。 执 行 pnp -i 查 
看 运行 的 PHP 版 本 和 extension_dir 的 值 ， 然 后 下 载 合 适 的 版 本 (文件 名 中 含有 
“osx”) 。 解 压缩 ， 然 后 将 mongo.so 移动 到 extension_dir 指定 的 目录 。 


安装 完 后 ， 在 php.ini 文件 添加 下 列 命令 : 








extension=mongo.so 


重启 应 用 服务 器 ，Mongo 扩展 组 件 会 在 下 次 PHP 启动 时 自动 加 载 。 
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3. 在 Linux 和 Unix 下 安装 
运行 如 下 命令 : 
$ pecl install mongo 
在 php.ini 中 添加 下 面 一 行 : 
extension=mongo.so 


重启 应 用 服务 器 ，Mongo 扩展 组 件 会 在 下 次 PHP 启动 时 自动 加 载 。 


11.2.2 ”使 用 PHP 驱 动 程序 
Mongo 类 就 是 一 个 到 数据 库 的 连接 。 上 默认 情况 下 ， 构 造 器 尝试 连接 本 地 上 默认 端口 处 
运行 的 数据 库 服 务 器 。 


用 get 国 数 从 连接 中 取得 数据 库 ， 同 样 也 可 以 从 数据 库 取得 集合 (其 至 从 集合 取 
得 子 集合 ) 。 例 如 ， 下 面 语句 连接 MongoDB 后 ， 获 取 了 数据 库 foo 的 bar 集合 : 








<?php 
$sconnection = new Mongo () ; 
scollection = $connection->foo->bar; 


还 可 以 继续 链接 取 值 函数 来 访问 子 集合 。 例 如 要 得 到 bar.baz 集合 ， 可 以 使 用 如 下 命令 : 
scollection = $connection->foo->bar->baz; 


文档 用 PHP 中 的 关联 数组 表示 。 这 样 ，JavaScript 中 的 {"foo" : "par"}) 就 可 以 
表示 成 PHP 中 的 array ("foo" => "bar")， 数 组 对 应 表示 为 PHP 中 的 数组 ， 这 
有 时 有 点 费解 : JavaScript 的 ["foo"， "bar"， "baz"] 等 价 于 array ("foo", 


na ubaz") 6 


对 于 null、 布 尔 型 、 数 字 型 、 字 符 串 和 数组 ，PHP 驱动 使 用 了 PHP 的 本 机 类 型 。 
对 于 其 他 类 型 ， 有 一 类 以 Mongo 作为 前 级 ，Mongocollection 是 集合 ，MongoDB 
是 数据 库 ，MongoRegex 是 正则 表达 式 。 这 些 类 在 PHP 手册 (http://us2.php.net/ 
manual/en/book.mongo.php) 里 有 详尽 的 说 明 。 


11.2.3 ”设计 新 闻 聚 集 器 
创建 的 新 闻 聚 集 器 较为 简单 ， 用 户 可 以 提交 有 趣 故事 的 链接 ， 其 他 用 户 可 以 对 此 进 
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行 评 论 或 者 投票 。 这 里 仅 做 两 个 点 : 创建 评论 树 和 处 理 投 


壮 


o° 


存放 提交 和 评论 ， 一 个 集合 就 够 用 了 ， 这 个 集合 称 作 posts。 起 初 的 posts 链接 着 
某 篇 文章 ， 形 式 大 致 如 下 : 


{ 


A Opieet ta(); 
"title" : "A Witty Title", 
"url" : "http://www.example.com", 
"date" : new Date(), 
和 
vautnorn 让 
"name" : "joe", 
下 和 人 ww Objectrd():; 


} 
评论 的 形式 也 类 似 ， 只 不 过 没有 "url"， 而 是 "content"。 


11.2.4 ”评论 树 
MongoDB 中 表示 树 的 方法 有 多 种 ， 选 择 哪 种 表示 方法 取决 于 要 执行 的 查询 的 类 型 。 
这 里 每 个 节点 都 有 个 数组 ， 包 含 父 节点 、 祖 父 节 点 ， 等 等 。 所 以 比如 有 下 面 的 评论 结构 : 


original link 

|- comment 1 

| |- comment 3 (reply to comment 1) 

| |- comment 4 (reply to comment 1) 

| |- comment 5 (reply to comment 4) 
|- comment 2 

| |- comment 6 (reply to comment 2) 


评论 5 的 祖先 数组 会 包含 原始 链接 的 _ig、 评 论 1 的 _ia、 评 论 4 的 _iqd。 评 论 6 


的 祖先 则 有 原始 链接 的 _ia 和 评论 2 的 _ia。 这 样 非常 便于 搜索 “链接 X 的 所 有 评 
论 ” 或 者 “评论 2 的 回复 的 子 树 ”。 





用 这 样 的 方式 存放 评论 基于 如 下 假设 : 有 很 多 评论 ， 但 只 对 某 一 小 部 分 评论 感 兴趣 。 
要 是 想 显 示 所 有 评论 ， 且 总 数 不 会 达到 好 几 千 条 ， 就 可 以 将 整个 评论 树 作 为 提交 的 
链接 文档 的 内 舱 文 档 了 。 





使 用 这 种 祖先 数组 的 方式 ， 当 要 添加 新 评论 时 ， 得 向 集合 添加 新 文档 。 创 建 这 个 叶 
子 文 档 ， 要 将 其 与 父 市 点 的 "_ia" 值 和 其 祖先 数组 联系 起 来 。 








function createLeaf ($parent, S$replyInfo) { 
schild = array( 
"_id" => new MongoId(), 
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"content" => S$replyIinfo['content'], 


"date" => new MongoDate () ， 

"votes" => 0， 

"autlor Ss. EEaY( 
"name" => S$replyInfo['name'], 
"name" => S$replyInfo['name'], 

ye 

"ancestors" => S$parent['ancestors'], 

"parent" => S$parent[' id'] 


) 二 


// add the parent's id to the ancestors array 
$schildl[l'ancestors'] [] = $parent[' id']; 


return s$child; 


} 
之 后 就 可 以 为 posts 集合 添加 新 评论 了 了: 
$comment = createLeaf ($parent, S$replyInfo),; 


$posts = $connection->news->posts; 
$posts->insert (8$comment ) ; 


然后 就 查询 一 下 最 新 的 提交 (不 是 评论 ) : 


$cursor = S$posts->find(array ("ancestors" => array('s$size' => 0))); 
$cursor = $cursor->sort (array ("date" => -1)); 

如 果 要 查看 指定 文章 的 评论 ， 使 用 如 下 命令 就 可 以 找到 所 有 评论 : 
$cursor = S$posts->find(array ("ancestors" => $postIQ) ) ; 





事实 上 ， 可 以 用 这 个 查询 来 访问 评论 的 所 有 子 树 。 子 树 的 根 市 点 作为 SpostId， 每 
个 子 节点 都 会 在 其 祖先 数组 中 含有 $spostId， 这 样 就 被 返回 了 。 


为 了 加 快 查 询 速度 ， 需 要 按照 "date" 和 "ancestors'" 建立 索引 : 





$pageOfComments = S$posts->ensureIndex(array ("date" => -1, "ancestors" 
=> 1)); 


现在 就 能 非常 快速 地 查询 主页 面 、 评 论 树 或 评论 子 树 了 。 





11.2.5 ”投票 

投票 也 有 多 种 实现 方式 ， 取 决 于 需要 的 功能 和 信息 : 人 允许 来 来 回回 地 投票 吗 ? 要 不 要 阻 
正 用 户 多 次 投票 ? 人 允许 改变 选择 吗 ? 你 关心 大 家 投票 的 时 间 吗 ， 以 便 查 看 链接 的 趋势 ? 
每 个 需求 都 有 不 同 的 解决 方法 ， 需 要 很 复杂 的 代码 ， 而 最 简单 投票 就 是 用 "$ine": 


$posts->update(array(" id" => $post1d),array('$inc' => array ("votes", 1))); 
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对 于 有 和 争议 的 或 是 热门 的 连接 ， 不 能 让 大 家 可 以 投 好 儿 百 次 ， 所 以 要 限制 每 个 用 户 
只 能 对 一 个 链接 投 一 次 。 最 简单 的 做 法 是 加 一 个 "voters" 数组 ， 记 录 一 下 投票 的 
人 ， 也 就 是 用 个 数组 把 用 户 的 "_ia" 值 都 记录 下 来 。 如 果 有 人 投票 ， 执 行 更 新 操 
作 ， 检 查 一 下 用 户 的 ， ia 是 否 在 ， ia 数组 中 : 

$posts->updqate (array("_ id" => $postIQ，"voters'" => array('$ne' => $userId)), 

array (Sine =s array("votes', 1), “Spush’ ss array("VvVOLera" =S 
suserId))); 

如 果 有 几 百 万 用 户 ， 这 样 做 没有 问题 。 要 是 投票 数量 再 大 点 ， 就 会 达到 4 MB 的 上 
限 ， 这 样 就 得 对 特别 热门 的 链接 特殊 处 理 一 下 ， 将 放 不 下 的 投票 放 到 新 的 文档 中 。 


11.3” 自 定 义 提交 表单 : Ruby 


MongoDB 在 Ruby 开发 者 中 大 受 欢 迎 ， 很 可 能 是 因为 面向 文档 的 方式 与 Ruby 的 动态 
灵活 的 风格 相 契 合 。 这 个 例子 将 用 MongoDB 的 Ruby 驱动 程序 建立 一 个 自 定 义 提 交 
表单 的 框架 ， 这 个 例子 是 《纽约 时 报 》 的 博客 文章 ， 介 绍 怎样 用 MongoDB 处 理 提 交 
表 单 (http:/open.blogs.nytimes.com/2010/05/2S/building-a-better-submission-form/) 的 
简化 版 。 要 查看 在 Ruby 中 使 用 MongoDB 更 为 详尽 的 说 明 ， 请 参考 Ruby 语言 中 心 
(http://www.mongodb.org/display/DOCS/Ruby+Language+Center) 。 




















11.3.1 安装 Ruby 驱 动 


Ruby 驱动 是 个 RubyGem， 地 址 为 http://rubygems.org。 使 用 gem 来 安装 是 最 方便 的 方式 
了 。 事 先 要 安装 最 新 的 RubyGems (使 用 gem update --system)， 然 后 安装 mongo gem: 


$ gem install mongo 

Successfully installed bson-1.0.2 

Successfully installed mongo-1.0.2 

2 gems installed 

Installing ri documentation for bson-1.0.2... 
Building YARD (yri) index for bson-1.0.2... 
Installing ri documentation for mongo-1.0.2... 
Building YARD (yri) index for mongo-1.0.2... 
Installing RDoc documentation for bson-1.0.2... 
Installing RDoc documentation for mongo-1.0.2... 


mongo gem 依赖 于 bson gem， 所 以 会 一 同安 装 。bson gem 负责 驱动 的 所 有 BSON 编码 和 解 
码 (关于 BSON, 详 见 附录 C 中 的 “BSON” 一 节 )。 如 果 有 bson ext 的 话 ，bson 就 会 利 
用 其 中 的 C 扩展 来 提高 性 能 。 出 于 性 能 考虑 ， 如 果 安 装 了 gem 一 般 都 要 安装 bson ext: 

§ gem install bson ext 

Building native extensions. This coulgd take a while... 


Successfully installed bson ext-1.0.1 
1 gem installed 





只 要 bson_ext 在 加 载 路 径 下 ， 就 会 自动 被 调用 的 。 


11.3.2 ”使 用 Ruby 了 驱动 
可 以 用 Mongo: :Connection 类 连接 MongoDB 实例 。 生 成 了 Mongo: :Connection 
以 后 ， 用 方 插 号 就 可 以 得 到 数据 库 (这 里 用 到 的 就 是 stuffy 数据 库 ) : 





> require 'rubygems' 
=> true 
> require 'mongo' 
翅 S' 示 寺 了 
> db = Mongo::Connection.new["stuffy"] 


Ruby 驱动 用 散 列表 示 文 档 。 除 此 之 外 ， 其 API 和 shell 的 API 非常 相似 ， 方 法 名 基 
本 相同 (Ruby 用 的 是 下 划 线 命名 法 ，shell 用 的 是 驼峰 式 命名 法 )。 下 面 的 方式 在 
bar 集合 中 插入 文档 {"x" : 1}， 然 后 查询 结果 : 





> dbl["bar"] .insert :x => 1 

=> BSON: :ObjectID('4c168343e6fb1lb106f000001') 

Ss. db [bar™]) find one 

兰芝 {"_id"=>BSON: :ObjectID('4c168343e6fblb106f000001') ， "v=.} 


Ruby 中 的 文档 有 些 地 方 值得 注意 。 


。 Ruby 1.9 的 散 列 是 有 序 的 ， 这 与 MongoDB 中 文档 的 工作 方式 相 匹 配 。 但 
在 Ruby 1.8 中 ， 散 列 是 无 序 的 。 如 有 必要 ， 驱 动 提供 了 一 种 特殊 的 类 型 
BSON: :OrderedqHash， 当 键 的 顺序 很 重要 时 用 其 替代 普通 的 散 列 ， 

。 准备 存放 到 MongoDB 中 的 散 列 中 的 键 和 值 都 可 以 是 符号 ， 但 是 从 MongoDB 中 返 
回 的 散 列 中 ， 原 来 的 值 是 符号 输出 就 是 符号 ， 但 是 原来 的 键 若 是 符号 则 返回 时 变 成 
字符 串 。 所 以 { :x => :y} 就 变 成 {"x" => :y) 了 。 这 是 用 BSON 表示 文档 的 
副作用 (关于 BSON， 详 见 附录 C)。 


11.3.3 自 定义 表单 提交 

现在 的 问题 是 为 用 户 提 交 的 数据 生成 自 定 义 的 表单 ， 用 这 些 表单 来 处 理 用 户 提 交 的 
信息 。 编 辑 器 创建 的 表单 ， 可 以 含有 各 种 各 样 的 字段 ， 每 个 字段 可 以 有 不 同 的 类 型 ， 
可 以 有 不 同 校 验 规 则 。 这 里 会 利用 和 肯 入 文档 ， 将 每 个 字段 都 作为 表格 内 部 的 一 个 独 
立 的 内 欧文 档 存 储 。 一 个 评论 提交 表单 的 形式 大 概 如 下 : 








comment form = { 
:_id => "comments", 
:fields => [ 


:name => "name", 
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:label => "Your Name", 
:help. text => "Redquired", 
:required => true, 

tyBe =3 VSstring, 

:max_ length => 200 


:name => "email", 

:label => "Your E-mail Address", 

:help text => "Required, but will not be displayed", 
:required => true, 

:type =5, "email" 


:name => "comment", 

:label => "Your Comment", 

:help text => "Comments will be moderated", 
:required => true, 

‘VDe. se Toteing,; 

:word limit => 200 


} 

这 个 表格 就 体现 出 像 MongoDB 这 种 面向 文档 的 数据 库 的 好 处 。 首 先 ， 可 以 在 表单 
文档 中 直接 虑 入 字段 ， 而 不 必 存 到 别 的 地 方 然后 进行 连接 。 现 在 可 以 用 一 个 简单 的 
查询 得 到 表单 的 整个 表示 ， 还 能 对 不 同类 型 的 字段 使 用 不 同 的 键 。 在 上 面 的 例子 中 ， 
name 字段 有 :max_length 键 ，comment 字段 有 :word limit 键 ， 而 email 字段 
就 没有 这 两 个 键 。 

"_id" 存放 的 是 好 认 的 表单 名 ， 因 为 后 面 还 要 按照 表单 名 创建 索引 来 加 快 查 询 速 
度 。 将 索引 设 成 唯一 索引 ， 还 能 保证 表单 名 不 重复 。 

编辑 器 创建 新 表格 时 ， 只 需 保 存 最 后 的 结果 文档 。 保 存 刚才 创建 的 comment_form 
(评论 表格 ) 文档 : 


dbl"forms"] .save comment form 


每 次 想 要 呈现 包含 评论 表格 的 页 面 时 ， 要 先 用 表单 名 将 表单 文档 调 出 来 : 














dbl[l"forms"] .find one : id => "comments" 


返回 的 这 一 个 文档 就 包含 了 呈现 表单 所 需 的 全 部 信息 了 ， 包 括 名 字 、 标 签 、 要 呈现 
的 每 个 输入 字段 的 类 型 。 当 表单 发 生变 化 时 ， 编 辑 器 可 以 很 容易 地 添加 新 字段 ， 或 
者 为 已 有 的 字段 添加 新 的 约束 。 


当 用 户 提 交 时 ， 可 以 用 之 前 用 过 的 查询 得 到 相关 的 表单 文档 ， 来 验证 用 户 提交 ， 包 括 
是 否 填写 了 所 有 必 填 字段 ， 是 否 符合 其 他 指定 的 要 求 。 验 证 完 以 后 ， 就 可 以 将 提交 作 
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为 一 个 单独 的 文档 ， 保 存在 submissions 集合 中 。 提 交 的 形式 类 似 于 下 面 这 样 : 





comment submission = { 
form Qi = "commente", 
:name => "Mike D.", 
:email => "mike@example.com", 
:Comment => "MongoDB is flexible!" 


} 


这 里 又 一 次 充分 利用 了 文档 模型 ， 每 个 提交 都 能 有 自己 的 键 (这 里 是 :name, :email 
和 :comment )。 提 交 只 有 一 个 必 选 键 :form id。 目的 是 为 了 快速 获取 特定 表单 的 所 


db[l"submissions"] .find :form id => "comments" 





为 了 提速 ， 还 要 按照 :form id 建立 索引 : 


db["submissions"] .create index :form id 


同样 ， 对 于 给 定 的 提交 ， 也 能 通过 :form i 找到 对 应 的 表单 文档 。 




















11.3.4 ”Ruby 的 对象 映 射 和 在 Rails 中 使 用 MongoDB 


有 一 些 库 在 基本 的 Ruby 驱动 的 基础 上 为 MongoDB 的 文档 提供 了 模型 (model) 、 确 认 
(validation)、 关 联 (association) 等 内 容 。 最 流行 的 工具 要 算 MongoMapper (http:mongo- 
mapper.com/) 和 Mongoid (http://mongoid.org/) 了 。 如 果 习 惯 了 ActiveRecord 或 者 Data- 
Mapper， 那 么 你 除了 基本 的 Ruby 驱动 外 要 考虑 使 用 这 些 对 象 映射 工具 。 


MongoDB 与 Ruby on Rails 配合 完美 ， 尤 其 是 用 了 上 面 提 到 的 映射 工具 时 。 
MongoDB 站 点 上 有 MongoDB 与 Rails 集成 的 最 新 指南 (http://www.mongodb.org/ 
display/DOCS/Rails+-+Getting+Started ) 。 








11.4 实时 分 析 : Python 


MongoDB 的 Python 驱动 叫做 PyMongo。 本 节 会 用 PyMongo 实现 对 Web 应 用 度量 
的 实时 跟踪 。PyMongo 最 新 的 帮助 文档 可 在 http://api.mongodb.org/python 上 找到 。 


11.4.1 安装 PyMongo 
Python Package Index (http://pypi.python.org/pypi/pymongo/) 中 就 有 PyMongo， 用 
eaSsy install (http://pypi.python.org/pypi/setuptools) 就 可 以 安装 : 


$ easy_install pymongo 
Searching for pymongo 
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Reading http://pypi.python.org/simple/pymongo/ 
Reading http://github.com/mongodb/mongo-python-driver 
Best match: pymongo 1.6 

Downloading ... 

Processing pymongo-1.6-py2.6-macosx-10.6-x86 64.egg 
Moving ... 

Adding pymongo 1.6 to easy-install.pth file 


Installed ... 


Processing dependencies for pymongo 
Finished processing dependencies for pymongo 


这 样 就 安装 了 I 同时 会 试 着 安装 可 选 的 C 扩 展 。 要 是 C 扩 展 安装 失败 ， 
一 切 也 能 照常 运行 ， 只 不 过 性 能 不 高 。 如 果 发 生 这 种 情况 ， 安 装 时 会 出 现 错误 提示 。 


除了 用 easy_install， 还 可 以 通过 源 代码 检查 运行 python setup.py install 来 安装 
PyMongo。 


11.4.2 ”使 用 PyMongo 


pymongo.connection.Connection 类 与 MongoDB 服务 器 连接 。 现 在 新 建 一 个 连 
接 ， 用 属性 的 方式 访问 ， 以 得 到 analytics 数据 库 : 





from pymongo import Connection 

db = Connection() .analytics 
PyMongo 的 API 与 MongoDB shell 的 API 非常 相似 。 和 Ruby 驱动 一 样 ，PyMongo 
也 使 用 下 划 线 命名 法 。PyMongo 中 用 字典 来 表示 文档 ， 因 此 要 插入 和 获取 文档 
{"a" : [1，2，3]}, 使 用 如 下 命令 就 可 以 : 





db.test.insert({"a": [1, 2, 3]}) 

db.test.find one() 
Python 的 字典 是 无 序 的 ， 所 以 PyMongo 提供 了 dict 的 一 个 有 序 的 子 类 pymongo. 
son.SON。 大 多 数 需要 顺序 的 情况 下 ，PyMongo 提供 的 API 都 将 这 点 对 用 户 隐藏 。 
如 果 遇 到 了 特殊 情况 ， 应 用 可 以 使 用 soN 实例 替代 字典 ， 来 确保 文档 的 键 的 顺序 。 


11.4.3 ”用 于 实时 分 析 的 MongoDB 

MongoDB 非常 适合 做 实时 环境 中 的 跟踪 度量 工具 ， 原 因 如 下 。 

。 upsert 操作 〈 详 见 第 3 章 ) 能 用 一 条 消息 插入 新 跟踪 文档 或 者 对 已 有 文档 更 新 计 
数 器 。 

。 upsert 发 送 后 不 需要 等 待 回应 ， 记 得 离 之 箭 吧 ? 这 样 应 用 程序 就 能 避免 在 每 次 分 析 更 
新 时 阻塞 。 完 全 没有 必要 等 着 看 操作 是 否 成 功 ， 因 为 分 析 代码 中 的 错误 用 户 又 不 会 知道 。 
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。 可 以 用 $inc 更 新 计数 器 ， 而 不 必 分 别 执行 查询 和 更 新 操作 。 这 样 还 能 避免 同时 
更 新 的 冲突 。 
。 MongoDB 的 更 新 性 能 很 高 ， 因 此 为 分 析 的 每 个 请 求 执行 一 个 或 多 个 更 新 是 合理 的 。 


11.4.4 模式 
下 面 的 合子 会 跟踪 网 站 的 页 面 访问 ， 以 小 时 为 统计 单位 。 追 踪 的 内 容 是 总 的 页 面 访问 次 
数 和 每 个 单独 URL 的 访问 次 数 。 目 的 是 每 小 时 得 到 一 个 集合 ， 包 含 下 面 这 样 的 文档 : 
































{ "hour" : "Tue Jun 15 2010 9:00:00 GMT-0400 (EDT)", "url" : "/foo", 
"views" :5 } 

{ "hour" : "Tue Jun 15 2010 9:00:00 GMT-0400 (EDT)", "url" : "/bar", 
"views" :5 } 

{ "hour" : "Tue Jun 15 2010 10:00:00 GMT-0400 (EDT)", "url"™ : "/", 
"views" : 12} 

{ "hour" : "Tue Jun 15 2010 10:00:00 GMT-0400 (EDT)", "url" : "/bar", 
"views" :3 } 

{ "hour" : "Tue Jun 15 2010 10:00:00 GMT-0400 (EDT)","url" : "/foo", 
"views" :10 } 

{ "hour" : "Tue Jun 15 2010 11:00:00 GMT-0400 (EDT)", "url" : "/foo", 
"views" :21 } 

{ "hour" : "Tue Jun 15 2010 11:00:00 GMT-0400 (EDT)", "url™ : "/", 
"views" : 3} 


每 个 文档 代表 对 某 一 小 时 内 某 个 URL 的 访问 次 数 。 如 果 这 小 时 没有 访问 ， 就 没有 
相应 的 文档 。 要 记录 整个 网 站 所 有 页 面 的 访问 次 数 ， 应 使 用 另外 一 个 集合 nourly_ 
totals， 形 式 如 下 : 











{ "hour" : "Tue Jun 15 2010 9:00:00 GMT-0400 (EDT)", "views" : 10 } 
{ "hour" : "Tue Jun 15 2010 10:00:00 GMT-0400 (EDT)", "views" : 25 } 
{ "hour" : "Tue Jun 15 2010 11:00:00 GMT-0400 (EDT)", "views" : 24 } 


因为 是 总 数 ， 这 里 的 不 同 就 是 不 需要 "url" 键 了 。 阁 在 这 个 小 时 内 没有 页 面 访问 ， 
也 就 没有 相应 的 文档 。 


11.4.5 ”处理 请 求 

每 当 应 用 接收 了 请 求 ， 就 需要 相应 地 更 新 分 析 的 集合 。 无 论 是 对 于 特定 URL 的 
hourly 集合 还 是 一 般 的 hourly totals 集合 ， 都 要 更 新 计数 。 下 面 定义 一 个 国 数 
来 处 理 某 个 URL， 更 新 分 析 数 据 : 


from datetime import datetime 


译注 1: sinc 是 原子 的 。 
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def track (url): 


hour = datetime.utcnow() .replace (minute=0, second=0, microsecond=0) 
db.hourly.update({"hour": hour, "url": url}, 


{"$inc": {"views": 1}}, upsert=True) 
db.hourly totals.update({"hour": hour}, 


{"$inc": {"views": 1}}, upsert=True) 
还 要 建立 索引 以 保证 高 效 地 执行 更 新 : 
from pymongo import ASCENDING 
db.hourly.create index([("url", ASCENDING), ("hour", ASCENDING)], 


unique=True) 
db.hourly totals.create index("hour", unique=True) 


对 于 hourly 集合 ， 使 用 "url" 和 "hour" 的 复合 索引 ， 而 对 于 hourly totals， 
只 对 "hour" 进行 索引 。 两 个 索引 都 是 唯一 索引 ， 因 为 每 个 统计 单位 只 应 该 有 一 个 
文档 。 

每 次 有 请 求 时 ， 就 调用 一 次 track， 并 将 请 求 的 URL 传递 过 去 。 它 就 能 执行 两 次 
upsert， 要 么 创建 新 的 统计 单位 文档 ， 要 么 更 新 已 有 文档 的 "views" 键 。 


11.4.6 ”使 用 分 析 数 据 


现在 已 经 有 了 跟踪 数据 ， 我 们 需要 一 种 方法 来 查询 数据 并 利用 这 些 数 据 。 下 面 输出 
最 近 10 小 时 总 的 页 面 访 问 量 : 

from pymongo import DESCENDING 

for rollup in db.hourly totals.find() .Sort ("hour",DESCENDING) .limit (10): 


pretty date = rollupl["hour"] .strftime ("%Y/%m/%$d %H") 
print "ss - %d" %$ (pretty date, rollupl"views"]) 


这 个 查询 能 利用 已 经 有 的 "hour" 上 的 索引 。 可 以 对 每 个 URL 执行 类 似 的 操作 : 


for rollup in db.hourly.find({"url": url}) .sort ("hour",DESCENDING) .limit (10): 
pretty date = rollup["hour"] .strftime("%$Y/%m/%d %H") 
print "%s - $d" % (pretty date, rollupl[l"views"]) 


唯一 的 不 同 就 是 ， 我 们 增加 了 一 个 查询 文档 ， 用 于 选择 "ur1"。 这 里 也 用 到 了 已 经 
对 murl" 和 "hour" 建立 的 复合 索引 。 





11.4.7 “其 他 因素 
还 要 考虑 的 是 应 该 定期 运行 一 个 清理 任务 ， 删 掉 旧 的 分 析 文 档 。 我 们 只 要 显示 最 近 
10 小 时 的 数据 ， 设 有 必要 保留 一 个 月 的 文档 。 按 照 下 面 的 做 法 可 以 删除 超过 24 小 
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时 的 文档 ， 通 过 cron 或 类 似 机 制 就 可 以 定期 执行 了 : 





from datetime import timedelta 


remove before = datetime.utcnow() - timedelta (hours=24) 
db.hourly.remove({"hour": {"$1lt": remove before}}) 
db.hourly totals.remove({"hour": {"$1lt": remove before}}) 


在 这 个 例子 中 ， 前 一 个 清除 因为 没有 在 "hour" 上 定义 索引 ， 所 以 得 做 表 扫 描 。 要 
想 有 效 地 执行 这 个 操作 (或 者 执行 其 他 根据 "nour" 查询 所 有 URL 的 操作 )， 则 应 
该 考虑 在 hourly 集合 中 在 "hour" 上 创建 一 个 索引 。 


这 个 例子 另 一 个 值得 注意 的 方面 是 ， 除 了 页 面 访问 做 别 的 统计 分 析 也 很 容易 ， 调 
整 时 间 单 位 的 大 小 也 一 样 容易 (甚至 可 以 同时 使 用 多 种 时 间 单 位 )。 只 要 稍稍 调整 
track 函数 ， 以 给 定 的 时 间 单 位 用 upsert 记录 需要 的 度量 就 好 了 。 
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附录 A 
MongoDB 





:I 
7 


在 大 部 分 平台 上 安装 MongoDB 都 很 简单 。Linux、Mac OS X、Windows 和 Solaris 
都 有 对 应 的 预 编 译 二 进 制 版 本 。 这 也 就 意味 着 在 大 多 数 平台 上 ， 只 需要 从 http:/ 
www.mongodb.org 下 载 压缩 包 ， 解 压 ， 执 行 安装 就 好 了 。MongoDB 需要 一 个 数据 
目录 写 和 数据库 文 件 ， 和 一 个 端口 用 来 监听 连接 。 这 节 会 介绍 在 两 种 不 同 的 系统 下 
的 安装 过 程 : 一 种 是 Windows， 一 种 是 其 他 (Linux、Mac OS X、Solaris ) 。 





当 提 及 “安装 MongoDB”, 一 般 具 体 指 的 是 构建 核心 的 数据 库 服务 器 mongod。 
mongod 无 处 不 在 ， 可 以 作为 单个 服务 器 、 主 从 市 点 、 副 本 集 的 成 员 ， 还 可 以 当做 片 。 
通常 就 是 所 需要 的 MongoDB 进程 。 第 8 章 介 绍 了 一 同 下 载 的 其 他 的 二 进 制 文件 。 


A.1 选择 版 本 


MongoDB 的 版 本 号 也 非常 好 理解 : 偶数 的 版 本 号 是 稳定 版 ， 奇 数 的 是 开发 版 。 例 如 ， 
1.6 开头 的 是 稳定 版 ， 比 如 1.6.0、1.6.1 和 1.6.15。 以 1.7 开头 的 则 是 开发 版 ，1.7.0、 
1.7.2、1.7.10 都 是 开发 版 。 现 在 就 以 1.6/1.7 为 例 来 具体 讲 一 下 版 本 的 演变 过 程 。 





(1) 开发 者 发 布 1.6.0。 这 是 一 个 大 版 本 更 新 ， 会 有 很 多 变化 。 建 议 生 产 系 统 尽 
快 升级 到 这 个 版 本 。 

(2) 开发 者 开始 着 手 开发 1.8 时 ， 发 布 了 1.7.0。 这 个 新 的 开发 分 支 和 1.6.0 非常 
类 似 ， 但 会 加 入 一 些 新 特性 ， 还 可 能 引入 一 些 bug。 

(3) 开发 者 继续 添加 新 功能 ， 然 后 发 布 1.7.1、1.7.2 等 。 

(4) bug 修正 和 没什么 风险 的 功能 则 合并 到 1.6 的 分 支 上 ,就 有 了 1.6.1、1.6.2 
等 。 对 于 这 种 调整 是 非常 保守 的 ， 只 有 个 别 功能 会 添加 到 稳定 版 中 ， 一 般 仅 修 
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正 bug。 

(5) 1.8.0 的 所 有 里 程 碑 都 达到 后 ， 开 发 者 发 布 一 个 版 本 ， 比 如 ，1.7.5。 

(6) 在 详细 测试 1.7.5 后 ， 通 常 需要 修复 一 些 bug。 人 和 修复 之 后 则 发 布 1.7.6。 

(7) 反复 重复 第 6 步 ， 直 到 没有 太 明 显 的 新 bug， 然 后 1.7.6 (或 者 最 后 发 布 的 
版 本 ) 就 会 被 重 命名 为 1.8.0。 这 样 ， 最 新 的 开发 版 就 成 了 新 的 稳定 版 。 

(8) 将 所 有 版 本 号 增加 .2， 然 后 从 第 一 步 重新 再 来 。 


所 以 ， 最 初版 本 的 开发 分 支 是 非常 不 稳定 的 〈x.y.0、x.y.1、x.y.2) ， 但 当 分 支 进入 
x.y.5 的 时 优 ， 就 非常 接近 可 用 于 生产 的 水 平 了 。 在 MongoDB bug 追踪 器 (http:// 
jira.mongodb.org) 上 训 览 核心 服务 器 的 路 线 图 ， 可 以 了 解 生产 版 本 的 发 布 细节 。 


除非 是 需要 开发 版 的 某 些 功能 ， 否 则 在 生产 环境 中 应 该 用 稳定 版 。 即 便 是 需要 开发 
版 的 某 些 功能 ， 在 用 之 前 ， 最 好 通过 邮件 列表 或 者 IRC 与 开发 者 取得 联系 ， 让 他 知 
道 你 要 部 署 开 发 版 到 生产 环境 中 ， 请 他 给 出 一 些 建议 ， 确 保 数据 的 安全 。( 当 然 ， 这 
样 总 是 一 个 不 错 的 主意 。) 


如 果 项 目 还 在 开发 阶段 ， 用 开发 版 可 能 会 更 好 。 项 目 上 线 部 署 时 ， 稳 定 版 也 发 布 了 
(MongoDB 保持 每 隔 儿 个 月 就 发 布 稳定 版 的 周期 )， 这 样 就 可 以 用 到 最 新 的 功能 。 但 是 ， 
必须 要 权衡 利弊 ， 因 为 这 么 做 很 可 能 引入 一 些 bug， 令 一 些 新 用 户 感 到 困惑 ， 失 去 信心 。 











A.2 在 Windows 下 安装 


在 Windows 下 安装 MongoDB， 先 要 从 MongoDB 下 载 页 (http:Wwww.mongodb. 
org/display/DOCS/downloads) 下 载 Windows 的 zip 文件 。 要 遵循 前 面 的 意见 ， 选 
择 合适 的 MongoDB 版 本 。Windows 下 有 32 位 和 64 位 的 版 本 可 供 选 择 。 点 击 连 接 ， 
下 载 .zip 文件 ， 然 后 解压 缩 。 








接着 ， 要 建立 一 个 目录 ， 用 于 存放 数据 库 文件 。MongoDB 默认 使 用 C:\data\db 作为 
数据 目录 。 可 以 创建 这 个 目录 ， 也 可 以 在 系统 的 任意 位 置 创建 其 他 空 目 录 。 前 面 讲 
过 ， 如 果 用 的 不 是 C:\data\db， 则 需要 在 启动 MongoDB 时 指明 数据 目录 。 








有 了 数据 目录 之 后 ， 打 开 命 令 提示 (cmd.exe)。 进 入 到 MongoDB 解压 的 目录 ， 然 后 执行 : 


$ bin\mongod.exe 


如 果 用 的 不 是 C:\data\db 作为 数据 目录 ， 得 用 --dbpath 参数 在 这 里 指定 : 





$ bin\mongod.exe --dbpath C:\Documents and Settings\Username\My 
Documents\db 
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更 多 选项 说 明 参 见 第 8 章 ， 或 者 用 mongod.exe - -help 查看 所 有 选项 。 


作为 服务 进行 安装 
MongoDB 在 Windows 中 还 可 以 作为 服务 进行 安装 。 使 用 完整 的 路 径 来 运行 ， 忽 略 
所 有 空格 并 使 用 - -instal1l 选项 ， 就 可 以 安装 了 。 例 如 : 


$ C:\mongodb-windows-32bit-1.6.0\bin\mongod.exe 
--dbpath "\"C:\Documents and Settings\Username\My Documents\db\"" 
--install 


之 后 就 可 以 在 控制 面板 中 启动 或 停止 服务 了 。 





A.3 在 POSIX 系 统 (Linux、Mac OS X 和 


Solaris) 下 安装 


参考 A.1 市 的 建议 ， 选 择 MongoDB 的 版 本 。 到 MongoDB 下 载 页 面 ， 选 择 操作 系 
统 对 应 的 版 本 。 


如 果 在 Mac 中 ， 要 检查 是 32 位 的 还 是 64 位 的 。 选 择 不 当 的 版 本 ，Mac 就 
ey 会 不 能 启动 MongoDB， 还 会 给 出 很 多 令 人 费解 的 错误 信息 。 点 击 左上 角 的 
4 全 果 ， 选 择 “About This Mac” 选 项 查看 相应 的 信息 。 

















必须 要 先 建立 数据 目录 ， 以 供 数据 库存 放 文 件 。 默 认 的 数据 目录 是 /data/db， 但 用 
别 的 目录 也 是 没 问 题 的 。 如 果 创 建 了 默认 的 数据 目录 ， 要 确保 有 写 权限 。 创 建 目录 
并 设置 写 权限 的 操作 如 下 : 





$ mkdir -p /data/db 
$ chown -R SUSER:SUSER /data/db 


mkdir -p 会 创建 目录 和 必要 的 父 目录 (就 是 说 ，/data 不 存在 时 ， 会 先 创建 /data， 
然后 创建 /data/db)。chown 更 改 /data/db 的 所 有 者 ， 以 便 用 户 可 以 对 其 写 入 。 当 然 ， 
可 以 在 你 自己 的 主 目 录 中 创建 目录 ，MongoDB 用 这 样 的 目录 不 会 遇 到 权限 问题 。 





解压 缩 从 http:/www.mongodb.org 下 载 的 .tar.gz 文件 。 


$ tar zxf mongodb-linux-i686-1.6.0.tar.gz 
$ cd mongodb-linux-i686-1.6.0 


然后 就 可 以 局 动 数据 库 了 : 
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$ bin/mongod 


也 可 以 用 --dbpath 选项 指定 别 的 数据 库 路 径 : 


$ bin/mongod --dbpath ~/db 


关于 常用 选项 的 介绍 ， 详 见 第 8 章 ， 或 者 使 用 mongod - -help 查看 所 有 选项 。 


用 包 管理 器 安装 
这 些 系统 上 有 很 多 包 管理 





器 可 以 安装 MongoDB。 比 如 ，Debian 和 Ubuntu 就 有 官方 








包 ，Red Hat、Gentoo 和 FreeBSD 下 有 非 官 方 包 。 如 果 用 的 是 非 官 方 版 本 ， 启 动 数 
据 库 时 要 查看 日 志 ， 有 时 候 这 些 包 没 有 UTF-8 支持 。 





在 Mac 上 也 有 Homebrew 和 MacPorts 的 非 官 方 包 。 如 果 用 MacPorts 版 本 ， 一 定 得 


小 心 : 编译 MongoDB 需要 的 Boost 库 可 能 要 花费 数 小 时 。 下 载 后 ， 把 编译 工作 留 


给 无 尽 的 长 夜 吧 。 


无 论 使 用 哪 种 包 管理 器 ， 
未 雨 绸 瓷 总 没什么 坏处 。 








在 出 问题 之 前 就 搞 清楚 MongoDB 将 日 志 存 放 在 什么 地 方 ， 
一 定 要 确保 日 志保 存 正常 ， 以 备 不 时 之 需 '。 





译注 1: 日 志 监 控 可 以 避免 大 量 的 血泪 教训 。 
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附录 B 
mongo : MongoDB shell 








整 本 书 中 到 处 都 用 了 mongo， 其 实 它 是 数据 库 shell。 一 般 假定 它 和 mongod 运行 在 
同一 台 机 器 上 ， 还 假定 mongod 绑 定 了 默认 端口 。 如 果 不 是 这 样 的 话 ， 可 以 在 启动 
时 指定 这 些 参数 ， 让 shell 连接 另 一 台 服 务 器 : 


$ bin/mongo staging.example.com:20000 
这 样 就 会 连接 运行 在 staging.example.com 上 端口 为 20000 的 mongod。 


shell 默认 连接 test 数据 库 。 要 使 用 别 的 数据 库 ， 在 服务 器 地 址 后 添加 斜 杠 和 数据 库 
名 就 可 以 了 : 











$ bin/mongo localhost:27017/admin 
这 样 连接 的 就 是 本 地 默认 端口 的 mongoq， 但 用 的 是 admin 数据 库 。 


也 可 以 用 --nodp 选项 启动 shell， 而 不 连接 数据 库 。 如 果 只 是 试 试 JavaScript， 过 
一 会 儿 再 连 数据 库 ， 就 可 以 这 么 用 : 

$ bin/mongo --nodb 

MongoDB shell version: 1.5.3 


type "help" for help 
党 


一 定 要 记 住 ，db 绝 不 是 仅 有 的 数据 库 。 从 shell 中 可 以 连接 任意 多 个 数据 库 ， 这 对 
多 个 服务 器 的 环境 还 是 非常 方便 的 。 调 用 connect () ， 并 将 结果 赋值 给 变量 。 例 
如 ， 在 分 片 环 境 中 ， 可 能 想 用 mongos 表示 mongos 服务 器 ， 还 想 要 有 到 每 个 片 的 
连接 ， 可 以 如 下 操作 : 
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> mongos = connect ("localhost:27017") 
connecting to: localhost:27017 
localhost:27017 

> shard0 = connect ("localhost:30000") 
connecting to: localhost:30000 
localhost:30000 

> shardl = connect ("localhost:30001") 
connecting to: localhost:30001 
localhost:30001 


随后 ， 就 能 将 mongos、shard0 和 shard1 作为 db 变量 使 用 (但 一 些 特 殊 的 辅助 
方法 不 好 用 ， 比 如 use foo 或 者 show collections)。 


shell 工 具 
还 有 些 有 用 的 shell 函数 前 面 没 有 讲 到 。 


对 于 管理 多 个 数据 库 ， 有 多 个 数据 库 变 量 就 比 简单 的 ab 有 用 处 。 例 如 ， 在 分 片 中 ， 
要 维护 一 个 单独 的 指向 配置 服务 器 的 变量 





> config = db.getSisterDB ("config") 
config 
> config.shards.fingd() 


用 connect 函数 可 以 在 一 个 shell 中 连接 多 个 服务 器 


> shard db = connect ("shard.example.com:27017/mydb") 
connecting to shard.example.com:27017/mydb 
mydb 


> 


shell 下 还 可 以 运行 shell 命 


> runprogram("echo", "Hello", "world") 
shell: started mongo program echo Hello world 
0 


> sh6487| Hello world 


(输出 看 上 去 有 点 奇怪 ， 因 为 shell 还 在 运行 中 。) 
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附录 C 
深入 MongoDB 内 部 








大 多 数 情况 下 ，MongoDB 的 用 户 可 将 其 视 为 黑 盒 。 若 想 理解 性 能 特点 或 者 深入 了 
解 系统 ， 就 得 深入 MongoDB 内 部 了 。 


C.1 BSON 


MongoDB 的 文档 是 个 抽象 概念 。 其 具体 的 呈现 形式 取决 于 使 用 的 驱动 和 编程 语言 。 
因为 MongoDB 中 的 通信 大 量 依赖 于 文档 ， 所 以 需要 一 种 所 有 驱动、 工具 和 进程 都 
能 共享 的 文档 表达 方式 。 这 种 表达 叫做 Binary JSON (BSON)。 





BSON 是 轻 量 的 二 进 制 格式 ， 能 将 MongoDB 的 所 有 文档 表示 为 字 节 字符 串 。 数 据 
库 能 理解 BSON， 存 在 磁盘 上 的 文档 也 是 这 种 格式 。 


当 驱 动 要 插入 文档 ， 或 者 将 文档 作为 查询 条 件 ， 驱 动 会 将 文档 转换 成 BSON， 然 后 
再 发 往 服务 器 。 同 样 ， 返 回 到 客户 端的 文档 也 是 BSON 格式 的 字符 串 。 驱 动 需 要 将 
这 些 数据 解码 ， 变 成 本 机 的 文档 表示 ， 最 后 返回 给 客户 端 。 


用 BSON 格式 的 3 个 主要 目标 。 


效率 
BSON 设计 用 来 更 有 效 地 表示 数据 ， 占 用 更 少 的 空间 。 最 差 的 情况 下 ，BSON 比 
JSON 效率 略 低 ， 最 好 的 情况 下 (比如 存放 二 进 制 数据 或 者 大 数 )，BSON 要 高 效 
得 多 。 
。 可 遍历 性 
有 些 时 候 BSON 牺牲 了 空间 效率 ， 换 取 更 容易 遍历 的 格式 。 例 如 ， 在 字符 串 前 面 
加 入 甚 长度， 而 不 是 在 结尾 处 使 用 一 个 终结 符 。 这 对 MongoDB 内 省 文档 很 有 用 。 
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性 能 
最 后 BSON 的 编码 和 解码 速度 都 很 快 。 它 用 C 风格 的 表现 方式 来 表示 类 型 ， 在 
大 多 数 编程 语言 中 都 非常 快 。 
关于 BSON 的 详细 说 明 ， 参 见 http://www.bsonspec.org。 


C.2 Mongo 传输 协议 


驱动 在 TCP/IP 协议 的 基础 上 简单 封装 了 MongoDB 传输 协议 ， 用 来 与 MongoDB 交 
互 。MongoDB 的 wiki (http:www.mongodb.org/display/DOCS/Mongo+Wire+Protocol ) 
中 对 该 协议 有 详细 的 说 明 ， 不 过 基本 上 就 是 一 个 简单 封装 的 BSON 数据 '。 例 如 ， 插 
入 消息 会 有 20 字 节 的 头 部 数据 (包括 告知 服务 器 执行 插入 操作 的 代码 ， 以 及 消息 长 
度 )、 要 插入 的 集合 名 、 要 插入 的 BSON 文档 列表 。 


C.3 数据 文件 


MongoDB 的 数据 目录 (默认 是 /data/db/) 中 ， 每 个 数据 库 都 有 几 个 独立 的 文件 。 每 
个 数据 有 一 个 .ns 文件 和 若干 数据 文件 ， 数 据 文件 以 递增 的 数字 结尾 。 所 以 ， 数 据 
库 foo 会 被 存放 在 foo.ns、foo.0、foo.1、foo.2 等 文件 中 。 


每 个 新 的 以 数字 结尾 的 数据 文件 大 小 会 加 倍 ， 直 到 达到 最 大 值 2 GB。 这 是 为 了 让 小 
数据 库 不 浪费 太 多 的 磁盘 空间 ， 同 时 让 大 数据 使 用 磁盘 上 连续 的 空间 。 

MongoDB 为 了 保证 性 能 还 会 预 分 配 数据 文件 (可 以 用 - -noprealloc 关闭 这 一 功能 )。 
预 分 配 在 后 台 完 成 ， 有 数据 文件 被 填 满 时 就 自动 启动 。 这 就 意味 着 MongoDB 服务 器 总 
是 试图 为 每 一 个 数据 库 保留 一 个 额外 的 空 数 据 文件 ， 来 避免 文件 分 配 所 产生 的 阻塞 。 


C.4 命名 空间 和 数据 域 


在 数据 文件 内 部 ， 每 个 数据 库 都 是 按照 命名 空间 组 织 的 ， 一 种 类 别 的 数据 与 其 他 类 
别 的 分 开 存放 。 每 个 集合 的 文档 都 有 自己 的 命名 空间 ， 索 引 也 是 。 命 名 空间 的 元 数 
据 存放 在 数据 库 的 .ns 文件 中 。 

每 个 命名 空间 的 数据 都 被 分 成 若干 组 ， 放 到 数据 文件 的 某 一 区 域内 ， 这 个 区 域 称 为 
数据 域 。 在 图 C-1 中 可 以 看 到 数据 库 foo 有 3 个 数据 文件 ， 其 中 第 3 个 是 预 分 配 的 
空 文件 。 前 两 个 数据 文件 被 分 成 儿 个 数据 域 ， 属于 儿 个 不 同 的 命名 空间 。 












































译注 1: MongoDB 传 输 协 议和 HTTP、FTP 一 样 ， 是 一 种 应 用 层 协 议 ， 只 不 过 这 种 协议 目前 只 用 在 MongoDB 
相关 应 用 中 。 
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可 到 | foo.test 





00000000000 — 
00000000000 [| poba 
00000000000 人 foo.$freelist 
00000000000 | 也 分 配 空间 

00000000000 


00000000000 
00000000000 
00000000000 











C-1: 命名 空间 和 数据 域 


图 C-1 命名 空间 和 数据 域 还 展示 了 一 些 关 于 命名 空间 和 数据 域 有 趣 的 地 方 。 每 个 命名 
空间 可 以 有 儿 个 不 同 的 数据 域 ， 在 磁盘 上 不 〈 必 ) 连续 。 类 似 于 数据 库 的 数据 文件 ， 
每 次 新 分 配 的 命名 空间 的 数据 域 大 小 也 会 增加 。 这 是 为 了 平衡 命名 空间 浪费 的 空间 和 
尽量 让 一 个 命名 空间 的 数据 连续 做 出 的 折 中 。 图 中 还 有 个 特殊 的 命名 空间 $freelist， 
存放 着 不 再 使 用 的 数据 域 例如， 删除 集合 或 索引 产生 的 数据 域 )。 当 命名 空间 分 配 新 
的 数据 域 时 ， 系 统 会 先 查 找 空间 列表 ， 看 看 有 没有 合适 大 小 的 数据 域 可 用 。 


C.5 ”内存 映射 存储 引擎 


MongoDB 默认 的 存储 引擎 〈 也 是 本 书写 作 时 唯一 的 存储 引擎 ) 是 内 存 映射 引擎 。 
当 服 务 器 启动 后 ， 将 所 有 数据 文件 映射 到 内 存 。 然 后 由 操作 系统 来 负责 将 缓冲 数据 
写 入 磁盘 并 将 数据 调 入 调 出 内 存 页 面 。 这 样 的 引擎 有 若干 重要 的 特性 。 


。 MongoDB 管理 内 存 的 代码 非常 精炼 ， 原 因 就 是 将 大 部 分 工作 推 给 了 操作 系统 。 

。 MongoDB 服务 器 进程 的 虚拟 大 小 通常 会 非常 大 ,超过 整个 数据 集 的 大 小 。 这 没关系 ， 

因为 操作 系统 会 处 理 让 哪些 数据 常 驻 内 存 。 

。 MongoDB 不 能 控制 数据 写 入 到 磁盘 的 顺序 ， 也 就 不 能 用 预 写 日 志 提 供 单机 的 持久 
性 。 正 在 为 MongoDB 开发 的 一 种 新 的 存储 引擎 会 提供 这 种 功能 。 

。 32 位 的 MongoDB 服务 器 有 个 限制 ， 每 个 mongod 最 多 只 能 处 理 2 GB 数据 。 这 是 

因为 所 有 数据 必须 能 用 32 位 地 址 访问 到 。 
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大 于 封面 


本 书 的 封面 动物 是 猿 狐 多 ， 是 一 种 马达 加 斯 加 特有 的 灵 长 类 动物 。 据 说 狐 获 的 祖 
先 在 6500 万 年 前 利用 木 答 从 非洲 大 陆 抵 达 马 达 加 斯 加 〈 行 程 大 约 350 英里 )。 狐 
钦 摆 脱 了 与 非 训 其 他 物种 的 竞争 〈 如 猴子 和 松鼠 )， 并 且 适 应 了 生态 圈 的 各 种 位 
置 ， 发 展 至 今 种 类 已 接近 100 种 。 狐 猴 (lemur) 的 得 名 来 自 于 十 罗马 神话 中 的 幽灵 
(lemure)， 主 要 因 其 犹如 鬼 一 般 的 叫 声 、 司 伏 夜 出 ， 并 有 发 光 的 眼睛 而 得 名 。 马 达 
加 斯 加 的 文化 中 认为 狐 猴 有 超自然 力 ， 有 的 将 其 作为 祖先 的 灵魂 ， 有 的 作为 禁忌 之 
源 ， 还 有 的 作为 复仇 精神 。 有 的 部 落 将 某 种 狐 猴 作 为 本 族 的 祖先 。 


猿 狐 猴 在 狐 猴 中 算是 中 等 体型 ， 大 约 12 ~ 18 英寸 长 ，3 ~ 4 磅 重 。 尾 巴 有 16 ~ 
25 英寸 长 。 雌 性 和 幼年 狐 钦 有 和 白 须 ， 雄 性 有 红色 须 和 类 。 猿 狐 钦 以 水 果 和 花 洒 为 
食 ， 是 一 些 植物 的 传粉 者 。 猜 狐 猴 非常 喜欢 木棉 花 的 密 ， 也 吃 树 叶 和 昆虫 。 


猿 狐 猴 生 活 在 马达 加 斯 加 西北 部 的 干燥 的 森林 中 。 世 界 上 只 有 两 种 狐 钦 可 以 在 马达 
加 斯 加 以 外 找到 ， 猿 狐 猴 就 是 其 中 一 种 ， 它 们 在 科 摩 罗 和 群岛 也 有 分 布 〈 据 说 是 人 类 
将 其 带 过 去 的 )。 猪 狐 狼 有 种 特别 的 本 领 ， 可 以 选择 在 白天 醒 着 也 可 以 在 夜晚 醒 着 ， 
改变 其 活动 规律 是 为 了 适应 雨季 和 旱季 。 猿 狐 狼 的 栖息 地 越 来 越 少 ， 已 经 是 一 种 珍 
惜 的 物种 了 。 




















封面 图 片 选 自 Lydekker 的 Royal Natural History。 
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MongoDB 权 威 指南 


MongoDB 如 何 帮 你 管理 通过 Web 应 用 收集 的 海量 数据 呢 ? 通过 
本 书 的 权威 解读 ， 你 会 了 解 面向 文档 数据 库 的 诸多 优点 ， 会 发 现 
MongoDB 如 此 稳定 、 性 能 优越 甚至 能 够 无 限 水 平 扩 展 背后 的 原 
因 。 


本 书 的 两 位 作者 均 来 自 开 发 并 支持 开源 数据 库 MongoDB 的 公司 
10gen。 数 据 库 开发 人 员 可 将 此 书 作为 参考 指南 ， 系 统管 理 员 可 以 
从 本 书 中 找到 高 级 配置 技巧 ， 其 他 用 户 可 以 了 解 一 些 基 本 概念 和 
用 例 。 你 会 发 现 ， 将 数据 组 织 成 自 包含 的 JSON 风 格 的 文档 比 组 织 
成 关系 型 数据 库 中 的 记录 要 容易 得 多 。 

里 在 项 目 中 灵活 运用 面向 文档 的 存储 方式 。 


和 了 解 MongoDB 的 无 模式 数据 模型 如 何 处 理 文档 、 集 合 和 多 
个 数据 库 之 间 的 关系 。 


到 执行 基本 的 写 入 操作 ， 构 建 各 种 复杂 的 查询 ， 任 何 条 件 下 
都 能 查 出 数据 。 


@ 使 用 索引 、 聚 合 工具 ， 以 及 其 他 高 级 查询 技巧 。 

@ 了 解 监控 、 安 全 和 认证 、 备 份 和 修复 等 内 容 。 

@ 建立 主 从 集群 和 自动 故障 恢复 复制 。 

@ 利用 分 片 水 平 扩展 MongoDB， 了 解 其 对 应 用 的 影响 。 
和 Java、PHP、Python 和 Ruby 的 应 用 实例 应 有 尽 有 。 


适合 有 一 定编 程 经 验 的 初学 者 


“如 同 MongoDB 本 身 一 样 ， 本 


书简 明 扼要 、 通 俗 易 懂 。 所 有 
想 一 探 MongoDB 究 竟 的 人 都 
需要 这 本 不 可 或 缺 的 参考 手 
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最 前 沿 的 !T 类 电子 书 发 售 平台 

















有 E 子 出 版 的 时 代 已 经 来 临 。 
豫 仿 香 的 时 候 ， 图 灵 社 区 已 








在 许多 出 版 界 同行 还 在 狂 
经 采取 实际 行动 拥抱 这 个 











出 版 业 巨 变 。 作 为 国内 第 
版 商 ， 图 灵 社 区 目前 为 读者 
体验 : 在 线 阅 读 和 PDF。 















































相 比 纸 质 书 ， 电 子 书 具有 许 








家 发 售 电子 图 书 的 IT 类 出 
提供 两 种 DRM-free 的 阅读 











多 明显 的 优势 。 它 不 仅 发 

















布 快 ， 更 新 容易 ， 而 且 尽 可 
有 的 书 纸 质 版 是 黑白 印刷 的 


























能 采用 了 彩色 图 片 (即使 
) 。 读 者 还 可 以 方便 地 进 





行 搜索 、 剪 贴 、 复 制 和 打印 。 


最 方便 的 开放 出 版 平台 


图 灵 社 区 向 读者 开放 在 线 写 作 功 能 ， 


版 和 开源 出 版 的 梦想 。 利 用 





协助 你 实现 自 出 
“合集 ”功能 ， 你 就 能 了 





合 二 三 好 友 共 同 创作 一 部 技术 参考 书 ， 以 免费 或 收费 

















的 形式 提供 给 读者 。 (收费 
评审 。) 这 极 大 地 降低 了 出 
的 意愿 ， 图 灵 社 区 就 能 帮助 
书稿 ， 有 机 会 入 选 出 版 计划 























区 式 须 经 过 图 灵 社 区 立项 
版 的 门槛 。 只 要 你 有 写作 
尔 实现 这 个 梦想 。 成 熟 的 


， 同 时 出 版 纸 质 书 。 











图 灵 社 区 引进 出 版 的 外 文 图 书 ， 都 将 在 立项 后 马上 在 





社区 公布 。 如 果 你 























意 翻 译 哪 本 图 书 ， 欢 迎 你 来 社区 
申请 。 只 要 你 通过 试 译 的 考验 ， 即 可 签约 成 为 图 灵 的 


译 者 。 当 然 ， 要 想 成 功 地 完成 一 本 书 的 翻译 工作 ， 是 


需要 有 坚强 的 妆 力 的 。 





欢迎 加 入 


图 灵 宪 区 


图 灵 社 区 进一步 把 传统 出 版 流程 与 电子 书 出 版 业务 
紧密 结合 ， 目 前 已 实现 作 译 者 网 上 交 稿 、 编 辑 网 上 
审 稿 、 按 章 发 布 的 电子 出 版 模式 。 这 种 新 的 出 版 模 
式 ， 我 们 称 之 为 “敏捷 出 版 ”， 它 可 以 让 读者 以 较 
快 的 速度 了 解 到 国外 最 新 技术 图 书 的 内 容 ， 弥 补 以 
往 翻 译 版 技术 书 “ 出 版 即 过 时 ”的 缺憾 。 同 时 ， 敏 
捷 出 版 使 得 作 、 译 、 编 、 读 的 交流 更 为 方便 ， 可 以 
提前 消灭 书稿 中 的 错误 ， 最 大 程度 地 保证 图 书 出 版 


的 质量 。 




































































最 直接 的 读者 交流 平台 


在 图 灵 社 区 ， 你 可 以 十 分 方便 地 写作 文章 、 提 交 其 
误 、 发 表 评 论 ， 以 各 种 方式 与 作 译 者 、 编 辑 人 员 和 
其 他 读者 进行 交流 互动 。 提 交 勘 误 还 能 够 获 赠 社区 
银子 。 















































你 可 以 积极 参与 社区 经 常 开展 的 访谈 、 审 读 、 评 选 
等 多 种 活动 ， 赢 取 积分 和 银子 ， 积 累 个 人 声望 。 
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